掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 414|回复: 4

[讨论] 如何抓取 The free dictionary 网站中的 idioms 部分

[复制链接]
  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-3-5 22:22:50 | 显示全部楼层 |阅读模式
    本帖最后由 夏俊文 于 2021-3-5 22:29 编辑 . L$ m. m; z5 y0 ?& R

    1 H3 F$ z2 f1 U# x/ m  目前论坛已经有几部非常不错的 idioms 词典适合大家使用 —— urban dictionary,baidu 大的 8 in 1。除此之外, the free dictionary 上的 idioms 词典也是非常不错的,甚至在某些方面胜于前面提到的两部。 这本虽然偶尔有人抓取,但是各个版本都不太完美。目前我能找到的比较好的版本是这个 https://www.pdawiki.com/forum/fo ... &extra=page%3D1 。抓取的很全,但是没有保留重定向的词头。 例如在网站上查询 they'd as soon do something 会自动跳转到 (one) would (just) as soon (do something)。个人认为 idioms 词典制作最大的困难在于合并多部词典,和词头拆分,而这个网站在这两部分都做了深度的处理。如果能完整的离线这本词典,那就太好了。8 h# l9 T: s0 y0 ^$ Q  F0 J7 O& A
      经过我的观察暂时没有发现这本词典有完整的索引页面,也没找到前辈们留下的 python 脚本。目前我的想法是每查一个 idiom 后在网站底部有一个 full browser,可以利用这个来逐个查询,并获取下一个 idiom 的词头。但是这个 full browser 列出的是所有字典的索引,包括法律词典,百科等,如果使用这个方法估计是会很费劲。不知道大家有没有什么好办法。) Z* O/ c8 j8 Y2 _1 H! i- y
      最终如果成功,应该能得到一个词头数在30万以上,词条在8万左右的一部 idioms 词典。
  • TA的每日心情
    无聊
    2020-12-6 11:39
  • 签到天数: 198 天

    [LV.7]常住居民III

    发表于 2021-3-6 12:04:13 | 显示全部楼层
    这网站有三份索引,分别是主页的browser(字母索引),查询界面的分词典索引以及总索引(从头开始循环获取),每种获取方式拿到的都不完整。重定向当时有45万+。楼主如果打算重下,可以拿原先的词头生成索引,会比一个个循环快些。

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

     楼主| 发表于 2021-3-6 14:37:36 | 显示全部楼层
    Lynvia 发表于 2021-3-6 12:046 `9 @3 }9 B+ r& v6 }4 W; K
    这网站有三份索引,分别是主页的browser(字母索引),查询界面的分词典索引以及总索引(从头开始循环获取 ...
    2 R$ e! D5 a  X: ]# r
    确实如此,主页的browser只有部分词头,分词典索引只包含了非重定向的词头,目前看来只有从头循环再通过底部的full browser来获取完整的索引了,感觉难度有点大。不知道可否分享一下当时抓取时用到的python脚本和索引,想偷点懒。也不知道最后能不能成功

    该用户从未签到

    发表于 2021-3-7 15:38:01 | 显示全部楼层
    本帖最后由 klwo2 于 2021-3-7 15:41 编辑
    ; O$ j& N$ U2 G: M5 `
    7 N- G( ], B$ b' K这个网站本身就是不求整齐只求全面的  _  `- G! G6 |; K( K" J& W( L4 v

    0 G/ M3 w9 |- J0 u【这个网站在这两部分都做了深度的处理】是错觉,「his heart stands still」固然可以跳转到「(one's) heart stands still」,「their hearts stand still」就不行了,人不是机器,如果人自己不知道stood是stand的过去时,my就是one's,hearts是复数,想靠穷举,我觉得没意思' h3 l4 u. A/ d" T
    7 j' F% _  h1 ~! G% x9 I
    我知道有的朋友是喜欢在技术上精益求精的,我只是说单就The free dictionary而言,人要稍微勤快一点,才会受益。还是以「(one's) heart stands still」为例:
    * z- \# s7 ]; r" r$ ^8 J0 L6 Z5 h7 d+ a9 e- Q
    One experiences a very strong emotions, especially excitement, nervousness, or fear, such that it feels as though one's heart stops beating for a moment.
    ) U$ j/ o4 y8 s3 y2 K8 ^) {* f

    2 x1 j( n) {" T  h& B. Y8 a《英汉大词典2》的形式是「Sb.'s heart stands still」$ Q( N5 J: D0 x+ _
    & f* q, {# T! S- n8 V
    Sb.'s heart stands still.
    , N2 d/ g( H3 g9 L: J. Q某人吓呆了。
    0 Z/ b7 u5 M+ X& ?2 m
    1 n) _4 r5 B' K1 c: @" q! `
    《英汉大词典2》显然是片面了。# @# A: ?) G( q& P# H. w/ ~
    & n4 d' z- J- E8 U+ |6 T
    用好The free dictionary,能发现英汉大词典一堆毛病呢,按理说缺那么些跳转,根本碍不了勤奋的人
  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

     楼主| 发表于 2021-3-7 17:09:34 | 显示全部楼层
    klwo2 发表于 2021-3-7 15:38
    / h, i- X) U( \! s- |( B+ Z2 p这个网站本身就是不求整齐只求全面的3 b3 g6 G" x& q# h! O$ r

    - H7 Y6 ^: V6 J# r0 [【这个网站在这两部分都做了深度的处理】是错觉,「his heart stands ...
    ( i) \2 [8 \# K: a4 _" t& C' r4 ]
    大大说的很对,但是现有版本在索引上问题有点大。以搜索heart stands still时为例,它不能自动跳转到 (one’s) heart stands still,个人感觉还是需要做一点点处理的。这里是以欧路词典为例,我本人常用的是ios版的欧路词典。如果是电脑版的goldendict,在搜索时会有提示能够提示出(one’s) heart stands still。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 08:06 , Processed in 0.039847 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表