TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
发表于 2019-5-11 13:24:04
|
显示全部楼层
本帖最后由 mikeee 于 2019-5-11 13:33 编辑
$ N$ [4 h" g$ N" n% w) I8 a( X# |
先给答案:用 css选择器 .phmk,.phrase,.table7 ?$ y- ]8 l% Y8 q1 Q* y% F
/ h% t2 R# ?* M4 b2 ~8 F2 k1 A/ u- L; E
验证方法。 先将以下代码(楼主给出的mdict/html码)存为html文件,例如 phrases-idioms.html
" l" \1 A4 e; D Y! j, @/ A- <span class="phmk">■</span phmk> <span class="phrase">be taken aback </span phrase>:<br>.<span class="table"><span class="num">1.</span num>吃一惊;被弄糊涂:</span table>
复制代码 % K0 E. c g* X
0 r2 A/ u, ?9 C: N7 X$ z* e5 U
再用Chrome打开 phrases-idioms.html (一般双击 phrases-idioms.html即可。也可用其他浏览器,基本思想一样)。再调出 devtools (Chrome里右键选 Inspect或ctl-shift-I)。在devtools选定 Elements标签。在Elements标签按 ctrl-f,在跳出的搜索栏里键入 .phmk,.phrase,.table
! l( F" T. l$ Y4 G8 M5 R3 D n
; V0 ?! }% ]4 P5 P* w6 u结果大致如下图+ K+ h* n3 G& l# h: d7 r
* d8 m7 }9 M$ r9 X5 F$ N
5 Z6 l3 g6 b2 @) F* }9 h- X8 r
, e1 g3 ?! L) k8 a& K$ w% U: v可以看到 css选择器 .phmk,.phrase,.table 找到网页里的三个元素。
E( N' S) U: f# O+ B% F. }( ~0 N5 U( B0 X& Y3 T. L2 L% `
至于如何提出对应的三个元素有许多办法,python里可用 pyquery, node/js里可用 cheerio/jquery,其他编程语言也都应该有包可用。" S8 k" ^! e$ L0 U- r# J% r+ J
: _; R/ e6 s3 N! {2 _python的话可直接用 readmdict 直接从 mdx 文件逐个读出每个词头的内容再用 pyquery + css选择器 进行处理, 内存足迹极小。顺便提一句,正则要处理这种东西也并非不可能但怕是会力不从心,不信可以试试 |
|