掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 752|回复: 6

[求助] 如何把每个字条的短语、习语等提取出来

[复制链接]
  • TA的每日心情
    难过
    2020-5-22 17:29
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2019-5-8 10:09:57 | 显示全部楼层 |阅读模式
    本帖最后由 caihui10 于 2019-5-9 08:53 编辑
    : g& I" j" G7 e+ @6 V
    / Y; H8 w, P8 l9 K发现在字典里输入任何短语、习语,只要21世纪大英汉有,都能显示出来,大大提升了查字典的效率,但缺乏例句。陆老的大英汉例句丰富,但只能到该词条下去看,很是不便!很想学习下这个技术,把这部分提取出来方便查阅。在论坛里找了几个工具,像https://www.pdawiki.com/forum/fo ... =12972&extra=page=1,说只要输入空格,就可以提取,试过了好像不行。https://www.pdawiki.com/forum/fo ... =18986&extra=page=1,按正则该如何填写代码?比如想把大英汉的短语、习语部分提取出来该怎么弄?比如:想把 aback这个单词下的 <span class="phmk">■</span phmk> <span class="phrase">be taken aback </span phrase>:<br>.<span class="table"><span class="num">1.</span num>吃一惊;被弄糊涂:</span table>提取出来该怎么弄?论坛上看到还有很多方法,恳请大侠赐教!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-5-12 09:31:22 | 显示全部楼层
    本帖最后由 mikeee 于 2019-5-12 09:33 编辑 % Z2 r3 ?" y. |% @, c( v' G* q0 @

    + P% h' D" `3 `+ {- N我不是已经说了怎么提取短语习语了,在给出具体python码吧& U  q; h" s5 i) s
    1. from pyquery import PyQuery as pq3 `0 J8 h: s% \5 `
    2. html = '<span class="phmk">■</span phmk> <span class="phrase">be taken aback </span phrase>:<br>.<span class="table"><span class="num">1.</span num>吃一惊;被弄糊涂:</span table>'* o' S1 M$ _6 }
    3. res = [pq(elm).text() for elm in pq(html)('.phmk,.phrase,.table')]6 h5 z; C$ q: @. Y, J, @+ r( c/ Y
    4. print(res)4 K! C. a, O  S) ]6 f
    5. # 结果: ['■', 'be taken aback', '1.吃一惊;被弄糊涂:']
    复制代码
    提出短语习语后再重构字典,也不是太难的事,不过不会点编程单靠 vscode 的话要走很多很多弯路。
  • TA的每日心情
    开心
    2019-8-21 08:44
  • 签到天数: 163 天

    [LV.7]常住居民III

    发表于 2019-5-11 13:24:04 | 显示全部楼层
    本帖最后由 mikeee 于 2019-5-11 13:33 编辑
    $ N$ [4 h" g$ N" n% w) I8 a( X# |
    先给答案:用 css选择器 .phmk,.phrase,.table7 ?$ y- ]8 l% Y8 q1 Q* y% F
    / h% t2 R# ?* M4 b2 ~8 F2 k1 A/ u- L; E
    验证方法。 先将以下代码(楼主给出的mdict/html码)存为html文件,例如 phrases-idioms.html
    " l" \1 A4 e; D  Y! j, @/ A
    1. <span class="phmk">■</span phmk> <span class="phrase">be taken aback </span phrase>:<br>.<span class="table"><span class="num">1.</span num>吃一惊;被弄糊涂:</span table>
    复制代码
    % K0 E. c  g* X
    0 r2 A/ u, ?9 C: N7 X$ z* e5 U
    再用Chrome打开 phrases-idioms.html (一般双击 phrases-idioms.html即可。也可用其他浏览器,基本思想一样)。再调出 devtools (Chrome里右键选 Inspect或ctl-shift-I)。在devtools选定 Elements标签。在Elements标签按 ctrl-f,在跳出的搜索栏里键入 .phmk,.phrase,.table
    ! l( F" T. l$ Y4 G8 M5 R3 D  n
    ; V0 ?! }% ]4 P5 P* w6 u结果大致如下图+ K+ h* n3 G& l# h: d7 r
    * d8 m7 }9 M$ r9 X5 F$ N
    5 Z6 l3 g6 b2 @) F* }9 h- X8 r

    , e1 g3 ?! L) k8 a& K$ w% U: v可以看到 css选择器 .phmk,.phrase,.table 找到网页里的三个元素。
      E( N' S) U: f# O+ B% F. }( ~0 N5 U( B0 X& Y3 T. L2 L% `
    至于如何提出对应的三个元素有许多办法,python里可用 pyquery, node/js里可用 cheerio/jquery,其他编程语言也都应该有包可用。" S8 k" ^! e$ L0 U- r# J% r+ J

    : _; R/ e6 s3 N! {2 _python的话可直接用 readmdict 直接从 mdx 文件逐个读出每个词头的内容再用 pyquery + css选择器 进行处理, 内存足迹极小。顺便提一句,正则要处理这种东西也并非不可能但怕是会力不从心,不信可以试试
  • TA的每日心情
    难过
    2020-5-22 17:29
  • 签到天数: 44 天

    [LV.5]常住居民I

     楼主| 发表于 2019-5-11 23:30:42 | 显示全部楼层
    查看元素,我知道操作,关键是不会提取,我按drough发的教程安装了vscode,但运行总是说路径不对,我也不知道是哪里错了。哎,折腾这玩意都无心学习了。你看能不能提供教程,就像21世纪大英汉那样,什么短语都能查,只要它里面有。我昨天发了个RMB求购的帖子被人扔进了回收站,我也不想浪费太多时间在这上面,就想花点钱买技术。越简单越好,因我没任何计算机基础知识!
  • TA的每日心情
    难过
    2020-5-22 17:29
  • 签到天数: 44 天

    [LV.5]常住居民I

     楼主| 发表于 2019-5-15 21:12:44 | 显示全部楼层
    mikeee 发表于 2019-5-11 13:24
    8 r  I0 h) q" }3 T: m先给答案:用 css选择器 .phmk,.phrase,.table
    3 o" `  D& Q6 z7 l/ O* [1 x+ L4 Y: B) e: Y+ E: v% \. K5 _
    验证方法。 先将以下代码(楼主给出的mdict/html码)存为ht ...

    6 Z9 f. o& w! X# P5 n( T还是不会提取,谢谢你的耐心帮助,没有编程基础真是看不明白。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-5-15 22:22:33 | 显示全部楼层
    caihui10 发表于 2019-5-15 21:12
    # k7 E7 `* @4 J1 e3 M: K* r还是不会提取,谢谢你的耐心帮助,没有编程基础真是看不明白。

    1 j. u$ E6 B: ]( n& }% _哈哈哈,你得自己稍微学习一点,要不然你想自己修改词典真的很难。不要没有信心,我也是去年年底才开始学习计算机技术的,现在已经可以自己修改和制作词典了。
  • TA的每日心情
    开心
    2019-6-23 00:02
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2019-5-15 22:23:25 | 显示全部楼层
    要么你就重金悬赏,说清楚你要什么效果,我来给你按你的需求做。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 10:17 , Processed in 0.078446 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表