掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5948|回复: 32

[词典讯] 有道字典手机版提供了离线柯林斯词库

[复制链接]
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2016-8-22 21:23:03 | 显示全部楼层 |阅读模式
    如题,离线词库格式为dat,下面是离线词库链接,不知哪位大神可以提取出来,毕竟坛中的双解柯林斯多或多或少的有些缺失。
    3 i& l; |4 U, z0 _3 D7 p1 m1 }# x+ Z1 M5 Q- j- K
    http://pan.baidu.com/share/link? ... 8&uk=2500300905

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-9-28 08:39:12 | 显示全部楼层
    本帖最后由 bt4baidu 于 2016-9-28 08:40 编辑 3 ~/ R; B: H+ M0 r# q2 t

    . J) Z9 a" [" T/ Z, }3 l- {/ i如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可
    - b- Z% M1 G& N% h9 u1 B2 Y" Q+ r& w
    如果离线数据收了官网未收的单词,抓取时会报404错,自然知道官网缺哪些词,就可以把这些词从离线版里抽出来整合进去- _" n6 r6 N  C1 ^8 P

    ( E  h& H3 n+ b& ~7 K2 P至于官网收而离线未收的单词,就比较不好办,不过既然qiuhao1112之前用单词表轰过,可以用他那版的词头和新作差分一下,也就是几行代码的事情
    9 e' t; h8 Z2 U2 [+ h0 {9 S2 q或者用CED的单词表和新作差分后,再去轰一下也未尝不可
    9 {' ]. |7 E( m; M& b7 n% D: `
    7 Y0 b& H. [3 x只提供思路,英汉词典,本人是不会出手的
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-9-28 08:38:28 来自手机 | 显示全部楼层
    非常有必要!以后说不定都搞成在线的了,趁现在还有离线数据把它搞出来也是一件大功德

    点评

    同感啊!支持~~  发表于 2016-9-28 09:02
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 01:13:18 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 01:16 编辑
    # _  w5 h3 `. [9 A9 D* c, ~
    henices 发表于 2016-9-27 23:12
    2 Z4 ~2 a! ?8 J6 j# P& \- T, o有重新弄的必要吗?
    0 {& o0 U1 M+ ?2 |* a
    ! |6 t  Y, C, ^6 f3 W+ T
    个人建议henices大可以把有道的柯林斯双解的离线数据提取出来制成mdx词典,然后跟qiuhao1112常委网页上抓取的版本进行合并,能做到词条的完整。qiuhao1112常委抓取有道柯林斯双解的数据是用单词表去轰炸的(这种情况是针对词典网页完全没有词头索引的情况),难免有遗漏的词条。(抓网页的单词表中没有那个单词就会造成词条的缺失)。但是,有道官网的柯林斯双解数据更加新和更加完整。您可以在有道官网查grieve词条,可以发现第二个义项下的释义与离线版的柯林斯双解相比,官网的增加了grieve的语域Scottish。说到这里,突然意识到我刚才说的合并词典很有困难:有道官网的柯林斯双解数据更加新和更加完整。
    ' _- Y- B6 b6 q+ Y% d) F! `我在这个链接下的帖子中探讨了grieve词条:
    # k; e$ Q( S; ]/ ehttps://www.pdawiki.com/forum/fo ... hread&tid=17422

    该用户从未签到

    发表于 2016-9-27 23:48:37 | 显示全部楼层
    這是當然有必要的!有道的柯林斯英漢雙解大詞典,誠如 O 大所說,是以稀為貴的代表。即使可能有這樣那樣的問題,但是結合多個數據源,一定是能精益求精的。

    该用户从未签到

    发表于 2016-9-27 23:12:34 | 显示全部楼层
    有重新弄的必要吗?

    该用户从未签到

    发表于 2016-9-27 23:26:39 | 显示全部楼层
    henices 发表于 2016-9-27 23:127 j) B; N7 Z+ `$ f: N2 W# [! g
    有重新弄的必要吗?
    5 `: B3 E; z  X1 n  L- j
    8 L$ K1 `0 D" L5 g( _. E# G: @$ s
    ) ^& _7 d' }" ]1 s" {+ |
    相当有必要!
    + X) J; p7 x# y& o7 L; l$ {/ \8 Tqiuhao1112 抓取的版本,缺了大概 1% 。不过有道这离线版本,其实数据也比较糟糕,不过凭兄台的能力,肯定没问题的。
    + ?/ `4 ?6 Z! \0 l有道词典的《柯林斯英汉双解大词典》,收词量其实是 Collins English Dictionary 级别,远超金山词霸的《柯林斯COBUILD高阶英汉双解学习词典》,堪比《新牛津英汉双解大词典》,虽然缺少了词源,译文也欠讲究,但是终究是稀有的东西,很有参考价值。
    * l! U- l' q" w" b7 \: v9 c! t9 D5 U" S9 y, G# q5 C

    ( g/ ^  c; S% m* h$ g" b
  • TA的每日心情
    开心
    2025-1-7 17:15
  • 签到天数: 773 天

    [LV.10]以坛为家III

    发表于 2016-9-27 23:48:25 | 显示全部楼层
    henices 发表于 2016-9-27 23:12+ E0 L: S# l9 b* t; @, M7 ]
    有重新弄的必要吗?

    / u. r4 {! Y5 p. y: O+ t有必要,很有必要。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 00:47:56 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    ) L  g2 n8 d, W' H有重新弄的必要吗?

    ( {6 s2 w2 {3 p& Q目前发现qiuhao1112常委的有道柯林斯双解的词条与有道官网相比,少了词条bloodletting,不知道有没有少其他词条。

    该用户从未签到

    发表于 2016-9-28 08:52:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:128 ?4 h. x1 l1 m9 L6 a5 B0 c0 {5 j
    有重新弄的必要吗?
    7 s8 {* c+ M( k3 G+ K8 K9 {3 O
    大神您既然都问出来了,想必也是已经有几分想制作的念头了。其实这个柯林斯词典的母本就和柯林斯的足本(http://www.collinsdictionary.com/dictionary/english)有渊源。可以说,它是个双解版的类足本词典,这类词典基本上比较少。7 F9 S0 b1 Y9 \

    % S8 l( w: P, x( h想楼主与大家都比较喜欢的《新牛津英汉双解大词典》,可以说能与之比肩。细想起来了,同等规模的双解足本,大多没有电子版数据。比如新出的《新世纪英汉大词典》,所以这本有道柯林斯,就是当仁不让的柯林斯双解足本的替代品了。它里面的内容是混搭的,融合了COBUILD的例句解释(这就对英语学习者比较友好了)和《新世纪英汉大词典》方面的大容量(其词条容量是柯林斯高阶的两倍多),不可谓不强。
    ( S" R% G/ X5 T# @& N
    5 m, `. ~7 G  f8 K( s! e" w4 X楼主已经掌握解析 dat 数据的秘诀,取得数据也是不费吹灰之力之事。若是下定决定决心制作。也是很好的事情!另外,bt4baidu 大神的思路也是极好的,楼主也可以参考看看。

    该用户从未签到

    发表于 2016-9-28 09:06:50 | 显示全部楼层
    bt4baidu 发表于 2016-9-28 08:39
    7 R2 ?( h( s: j" u. i如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可, A" a0 o+ u% V0 l
    % _2 q* k$ u  H( W6 R' }. r
    如果离线数据收了官网 ...

    * D7 b+ j- x& t/ M官网有防爬虫之类措施没?

    该用户从未签到

    发表于 2016-9-28 09:13:50 | 显示全部楼层
    henices 发表于 2016-9-28 09:06" ]( b4 h, p" d3 A* @6 c- q, e, [7 h
    官网有防爬虫之类措施没?

    % T3 A& K2 O& @( R都能用单词表去轰,肯定是没有啦1 h. b) y0 k" R  l" O% `
    就算有,无非是封IP,现在都是ADSL,重启一下路由IP就换啦/ }9 @+ _6 W; s$ ?# m$ b* b
    据我所知,除非记录一个IP在某个时间段的访问量,否则是没办法防的,但是抓网页其实费不了什么带宽,基本上像样的服务器都不会在乎这点下载量,抓本词典也就几百兆1G而已,和普通网页用户访问几乎没啥差别,一般服务器也懒得费那个工夫
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-28 09:18:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:129 N9 v: i5 i# ?
    有重新弄的必要吗?
    5 F/ }- b" d/ f3 T+ f
    离线的词条数是97239,qiuhao1112大的词条数是91384,少了6%。

    该用户从未签到

    发表于 2016-9-28 12:09:05 | 显示全部楼层
    henices 发表于 2016-9-28 09:06; y! F  L* @8 |+ X, S+ k" p/ {
    官网有防爬虫之类措施没?

    8 j- V. s% C( l. Q6 m; u. W& R/ R
    建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片); X  z( `3 k# P' C
    有时候一图胜过千万语
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:26:19 | 显示全部楼层
    真是奇怪,我有一次用有道官网查单词,居然被封了一次IP

    点评

    看来兄弟的人品确实是有问题的,哈哈,开个玩笑  发表于 2016-9-28 15:30
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:31:53 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 12:33 编辑 + _/ X6 _! K. r! o* o' G3 U1 D* ]
    bt4baidu 发表于 2016-9-28 12:09: B9 Y% Y, u# ]% D$ S( v5 w' T
    建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)- \3 R% j( G$ A" B3 f) S
    ...
    , W" U0 |/ e6 O1 o& v/ X0 v7 |
    / n" q3 g, N8 [& {1 t, Y$ h5 c
    以前没有用mdx词典时,用有道在线的柯林斯双解用了无数次,没有发现柯林斯双解有过图;有图的单词图片经常是错的,要抓有图的单词,不如去抓bing dictionary online的图片,单词与图片对应得非常准确!0 d! F+ E* N+ q( b
    9 P& k' c! p; `
    bing dictionary online: http://cn.bing.com/dict/

    该用户从未签到

    发表于 2016-9-29 02:25:16 | 显示全部楼层
    才发现原来有道的柯林斯不是单单的cobuild双解啊,我一直奇怪为何讨论这个:不是早就有了吗?原来如此,大力支持有IT能力的兄弟搞一个。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-10-12 23:49:52 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-10-13 13:02 编辑 ) S5 _. x, m! t4 \4 p1 Z. c

    , i% U2 u! G" C还发现一个单词pal,在线版的有道柯林斯双解是有语域 [非正式,老式]http://dict.youdao.com/w/eng/pal/#keyfrom=dict2.index,而离线的柯林斯双解数据没有这部分。看来离线的柯林斯双解数据没有跟上在线的柯林斯双解数据的更新。2 ]& S1 U, \$ w! T* _+ S* S

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-1 23:23:25 | 显示全部楼层
    已经用离线词头抓取数据,整理制作中

    该用户从未签到

    发表于 2016-12-27 12:27:04 | 显示全部楼层
    非常有必要,加油

    该用户从未签到

    发表于 2016-12-29 19:46:48 | 显示全部楼层
    有道 有些坑

    该用户从未签到

    发表于 2017-4-2 14:09:19 | 显示全部楼层
    感谢您的分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-15 19:16 , Processed in 0.024200 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表