TA的每日心情 | 开心 2019-8-21 08:44 |
---|
签到天数: 163 天 [LV.7]常住居民III
|
发表于 2019-5-11 13:24:04
|
显示全部楼层
本帖最后由 mikeee 于 2019-5-11 13:33 编辑
, U9 D% d: e6 H, _9 c; _
7 q" X: f0 @7 p D- t G先给答案:用 css选择器 .phmk,.phrase,.table
3 `2 [* n2 a' F' e9 x
/ P9 `' m; f- d( ~验证方法。 先将以下代码(楼主给出的mdict/html码)存为html文件,例如 phrases-idioms.html9 P! m; N3 I& [7 v; w# K2 O
- <span class="phmk">■</span phmk> <span class="phrase">be taken aback </span phrase>:<br>.<span class="table"><span class="num">1.</span num>吃一惊;被弄糊涂:</span table>
复制代码 ) ~" o) p4 a9 o1 ~: L# z
2 `3 z4 L* }$ C, G; I: J8 I% @再用Chrome打开 phrases-idioms.html (一般双击 phrases-idioms.html即可。也可用其他浏览器,基本思想一样)。再调出 devtools (Chrome里右键选 Inspect或ctl-shift-I)。在devtools选定 Elements标签。在Elements标签按 ctrl-f,在跳出的搜索栏里键入 .phmk,.phrase,.table
. i" w2 K$ L) l# y& |* [( Q7 B8 \3 `5 W, e* D2 {5 A2 M! K: V: n
结果大致如下图$ v$ p# Y1 B( P3 P& h
2 w/ w+ K B7 s K+ R% a% H% g
: c2 b7 h; u& f1 r9 ?( F$ o$ m
( L D0 G* p8 ?, k可以看到 css选择器 .phmk,.phrase,.table 找到网页里的三个元素。; w& I2 ^# c( ~! o \
/ Q* }* i$ d% O1 V; E5 J: N
至于如何提出对应的三个元素有许多办法,python里可用 pyquery, node/js里可用 cheerio/jquery,其他编程语言也都应该有包可用。
9 Y: S9 S6 E. t. q% m; @# V* h3 j0 @( z2 C; e: `* ?6 x" p
python的话可直接用 readmdict 直接从 mdx 文件逐个读出每个词头的内容再用 pyquery + css选择器 进行处理, 内存足迹极小。顺便提一句,正则要处理这种东西也并非不可能但怕是会力不从心,不信可以试试 |
|