掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 797|回复: 4

[讨论] 如何抓取 The free dictionary 网站中的 idioms 部分

[复制链接]
  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

    发表于 2021-3-5 22:22:50 | 显示全部楼层 |阅读模式
    本帖最后由 夏俊文 于 2021-3-5 22:29 编辑 # O4 q: T. N/ r+ V! O6 g

    ) O8 ~7 j0 U. \7 T  目前论坛已经有几部非常不错的 idioms 词典适合大家使用 —— urban dictionary,baidu 大的 8 in 1。除此之外, the free dictionary 上的 idioms 词典也是非常不错的,甚至在某些方面胜于前面提到的两部。 这本虽然偶尔有人抓取,但是各个版本都不太完美。目前我能找到的比较好的版本是这个 https://www.pdawiki.com/forum/fo ... &extra=page%3D1 。抓取的很全,但是没有保留重定向的词头。 例如在网站上查询 they'd as soon do something 会自动跳转到 (one) would (just) as soon (do something)。个人认为 idioms 词典制作最大的困难在于合并多部词典,和词头拆分,而这个网站在这两部分都做了深度的处理。如果能完整的离线这本词典,那就太好了。) C  R2 c7 k/ \' T, ^' r0 o
      经过我的观察暂时没有发现这本词典有完整的索引页面,也没找到前辈们留下的 python 脚本。目前我的想法是每查一个 idiom 后在网站底部有一个 full browser,可以利用这个来逐个查询,并获取下一个 idiom 的词头。但是这个 full browser 列出的是所有字典的索引,包括法律词典,百科等,如果使用这个方法估计是会很费劲。不知道大家有没有什么好办法。2 k1 C, T% H. T9 V- m4 {3 A
      最终如果成功,应该能得到一个词头数在30万以上,词条在8万左右的一部 idioms 词典。
  • TA的每日心情
    无聊
    2020-12-6 11:39
  • 签到天数: 198 天

    [LV.7]常住居民III

    发表于 2021-3-6 12:04:13 | 显示全部楼层
    这网站有三份索引,分别是主页的browser(字母索引),查询界面的分词典索引以及总索引(从头开始循环获取),每种获取方式拿到的都不完整。重定向当时有45万+。楼主如果打算重下,可以拿原先的词头生成索引,会比一个个循环快些。

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

     楼主| 发表于 2021-3-6 14:37:36 | 显示全部楼层
    Lynvia 发表于 2021-3-6 12:04' t  H- @0 \; l3 k1 v9 s
    这网站有三份索引,分别是主页的browser(字母索引),查询界面的分词典索引以及总索引(从头开始循环获取 ...
    " z- n* M; B  f7 S/ z
    确实如此,主页的browser只有部分词头,分词典索引只包含了非重定向的词头,目前看来只有从头循环再通过底部的full browser来获取完整的索引了,感觉难度有点大。不知道可否分享一下当时抓取时用到的python脚本和索引,想偷点懒。也不知道最后能不能成功

    该用户从未签到

    发表于 2021-3-7 15:38:01 | 显示全部楼层
    本帖最后由 klwo2 于 2021-3-7 15:41 编辑 ) G/ v3 O$ q$ A% V9 T
    0 l2 q. R( h7 f4 ~
    这个网站本身就是不求整齐只求全面的
    + i7 ]$ ^" N) B% X3 d. _# s6 T: `) O
    【这个网站在这两部分都做了深度的处理】是错觉,「his heart stands still」固然可以跳转到「(one's) heart stands still」,「their hearts stand still」就不行了,人不是机器,如果人自己不知道stood是stand的过去时,my就是one's,hearts是复数,想靠穷举,我觉得没意思; C1 \1 q' {- l# J: M
    / R9 K. w4 d8 y- V! `6 g
    我知道有的朋友是喜欢在技术上精益求精的,我只是说单就The free dictionary而言,人要稍微勤快一点,才会受益。还是以「(one's) heart stands still」为例:' o# I. A9 i- H4 J$ q; Y" v' ]
    6 Y. |4 B6 e$ L1 b2 K9 f
    One experiences a very strong emotions, especially excitement, nervousness, or fear, such that it feels as though one's heart stops beating for a moment.
    $ {# v* A! j, c) X" O/ T

    - Z! N4 T: I& g( \, `《英汉大词典2》的形式是「Sb.'s heart stands still」: w3 l4 u: W) Z! J1 l
    9 I; `/ B8 u: w. x: T+ k1 C& u
    Sb.'s heart stands still.
    1 l! O- g7 u% L: ^# g- r某人吓呆了。

    # G6 n/ S) t( H0 q# Q9 P; r  H! s' y, Y2 f2 g) Q2 A# a
    《英汉大词典2》显然是片面了。
    1 C( d( y( ~7 U: M6 }) E
    ) ]+ E' `3 ^1 n2 s" t用好The free dictionary,能发现英汉大词典一堆毛病呢,按理说缺那么些跳转,根本碍不了勤奋的人
  • TA的每日心情
    奋斗
    2021-5-29 12:47
  • 签到天数: 52 天

    [LV.5]常住居民I

     楼主| 发表于 2021-3-7 17:09:34 | 显示全部楼层
    klwo2 发表于 2021-3-7 15:38
    ; \* ]0 r4 l+ @# V' @这个网站本身就是不求整齐只求全面的/ U- ~: E9 A2 n" J0 b) c  C! w

    " @( c: Y1 S7 h【这个网站在这两部分都做了深度的处理】是错觉,「his heart stands ...

    " v, @) d1 n8 M. Y$ R- x8 C2 l1 V! L大大说的很对,但是现有版本在索引上问题有点大。以搜索heart stands still时为例,它不能自动跳转到 (one’s) heart stands still,个人感觉还是需要做一点点处理的。这里是以欧路词典为例,我本人常用的是ios版的欧路词典。如果是电脑版的goldendict,在搜索时会有提示能够提示出(one’s) heart stands still。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-3 08:03 , Processed in 0.019967 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表