掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5296|回复: 32

[词典讯] 有道字典手机版提供了离线柯林斯词库

[复制链接]
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2016-8-22 21:23:03 | 显示全部楼层 |阅读模式
    如题,离线词库格式为dat,下面是离线词库链接,不知哪位大神可以提取出来,毕竟坛中的双解柯林斯多或多或少的有些缺失。: d( N8 m0 b# m' k6 q. a" i
    - O$ w0 ]2 N9 F% _% o; F6 S  Y2 F
    http://pan.baidu.com/share/link? ... 8&uk=2500300905

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-9-28 08:39:12 | 显示全部楼层
    本帖最后由 bt4baidu 于 2016-9-28 08:40 编辑 & ]+ d) J! G: h: _7 G
    : W6 a3 H& h- {4 c( M
    如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可
      t. p1 B3 d- l( m1 ~
    / D7 ]9 Q' V+ y  o如果离线数据收了官网未收的单词,抓取时会报404错,自然知道官网缺哪些词,就可以把这些词从离线版里抽出来整合进去
    5 R9 F) Q  |8 l  j: L( q5 n7 ]/ N$ [& m7 W0 ^4 ~  W( i. A4 r# t
    至于官网收而离线未收的单词,就比较不好办,不过既然qiuhao1112之前用单词表轰过,可以用他那版的词头和新作差分一下,也就是几行代码的事情0 T& q5 q; Y; {# m
    或者用CED的单词表和新作差分后,再去轰一下也未尝不可$ {0 u9 i# Y8 Y: [5 U8 R* d$ N* }
    " P9 W' s% P# O9 i
    只提供思路,英汉词典,本人是不会出手的
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-9-28 08:38:28 来自手机 | 显示全部楼层
    非常有必要!以后说不定都搞成在线的了,趁现在还有离线数据把它搞出来也是一件大功德

    点评

    同感啊!支持~~  发表于 2016-9-28 09:02
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 01:13:18 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 01:16 编辑 - j" b( P0 d6 V. {, b
    henices 发表于 2016-9-27 23:12
    ! ]1 j- Q; A$ d: {+ S' |有重新弄的必要吗?

    ! s# [$ C8 \- R- |: x" D2 n2 ^! s5 L. R
    % W6 m) E0 S; [- x. y个人建议henices大可以把有道的柯林斯双解的离线数据提取出来制成mdx词典,然后跟qiuhao1112常委网页上抓取的版本进行合并,能做到词条的完整。qiuhao1112常委抓取有道柯林斯双解的数据是用单词表去轰炸的(这种情况是针对词典网页完全没有词头索引的情况),难免有遗漏的词条。(抓网页的单词表中没有那个单词就会造成词条的缺失)。但是,有道官网的柯林斯双解数据更加新和更加完整。您可以在有道官网查grieve词条,可以发现第二个义项下的释义与离线版的柯林斯双解相比,官网的增加了grieve的语域Scottish。说到这里,突然意识到我刚才说的合并词典很有困难:有道官网的柯林斯双解数据更加新和更加完整。  B% g- H. b( J# d( w
    我在这个链接下的帖子中探讨了grieve词条:
    0 w. {; {0 `8 S! {+ }/ o  Zhttps://www.pdawiki.com/forum/fo ... hread&tid=17422

    该用户从未签到

    发表于 2016-9-27 23:48:37 | 显示全部楼层
    這是當然有必要的!有道的柯林斯英漢雙解大詞典,誠如 O 大所說,是以稀為貴的代表。即使可能有這樣那樣的問題,但是結合多個數據源,一定是能精益求精的。

    该用户从未签到

    发表于 2016-9-27 23:12:34 | 显示全部楼层
    有重新弄的必要吗?

    该用户从未签到

    发表于 2016-9-27 23:26:39 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    - O4 F: H3 t- s) F" E+ a有重新弄的必要吗?

    % i* S, [" S- S- i% L
    ! w; }* W0 t& I
    " V- m" ~) R- u) A' m相当有必要!
    * Y- Z9 w% _8 Z4 d2 k' Eqiuhao1112 抓取的版本,缺了大概 1% 。不过有道这离线版本,其实数据也比较糟糕,不过凭兄台的能力,肯定没问题的。! |4 M1 C. |6 t. N. `& |: K) P
    有道词典的《柯林斯英汉双解大词典》,收词量其实是 Collins English Dictionary 级别,远超金山词霸的《柯林斯COBUILD高阶英汉双解学习词典》,堪比《新牛津英汉双解大词典》,虽然缺少了词源,译文也欠讲究,但是终究是稀有的东西,很有参考价值。
    ; w. x4 r1 J2 X1 X$ X. }8 K/ t8 k! W% `" L: I5 F8 y
    8 W, n" |# L) X: D! q. J, y5 L
  • TA的每日心情
    开心
    前天 17:41
  • 签到天数: 757 天

    [LV.10]以坛为家III

    发表于 2016-9-27 23:48:25 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    ; U/ J( i% H8 Z7 R6 @有重新弄的必要吗?

    % _8 o7 ~  Y/ c1 e% s/ Z4 `; b( M有必要,很有必要。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 00:47:56 | 显示全部楼层
    henices 发表于 2016-9-27 23:12" P  r( ^5 d  O# ]" I& B
    有重新弄的必要吗?

    5 f! ]$ h! m3 I* Y% W  H3 m目前发现qiuhao1112常委的有道柯林斯双解的词条与有道官网相比,少了词条bloodletting,不知道有没有少其他词条。

    该用户从未签到

    发表于 2016-9-28 08:52:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12( R' u# r9 S8 d3 _3 \
    有重新弄的必要吗?
    8 w  G6 e$ H! [2 j7 j, x3 y% h
    大神您既然都问出来了,想必也是已经有几分想制作的念头了。其实这个柯林斯词典的母本就和柯林斯的足本(http://www.collinsdictionary.com/dictionary/english)有渊源。可以说,它是个双解版的类足本词典,这类词典基本上比较少。! T3 y0 t7 P6 d) q9 v2 Q

    5 |' |# o# c/ ^, Y4 z. [) a' k- B想楼主与大家都比较喜欢的《新牛津英汉双解大词典》,可以说能与之比肩。细想起来了,同等规模的双解足本,大多没有电子版数据。比如新出的《新世纪英汉大词典》,所以这本有道柯林斯,就是当仁不让的柯林斯双解足本的替代品了。它里面的内容是混搭的,融合了COBUILD的例句解释(这就对英语学习者比较友好了)和《新世纪英汉大词典》方面的大容量(其词条容量是柯林斯高阶的两倍多),不可谓不强。# H$ Y) e& b) p9 B0 D& G- A& {4 X
    & x$ G9 @+ A4 O- d2 @
    楼主已经掌握解析 dat 数据的秘诀,取得数据也是不费吹灰之力之事。若是下定决定决心制作。也是很好的事情!另外,bt4baidu 大神的思路也是极好的,楼主也可以参考看看。

    该用户从未签到

    发表于 2016-9-28 09:06:50 | 显示全部楼层
    bt4baidu 发表于 2016-9-28 08:390 M; t# s& v3 q1 M# ~' t9 K9 g
    如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可+ y$ Z* o+ S! f  s" E/ @; ]
    5 C1 w3 R& _& ]8 P, }& J4 q
    如果离线数据收了官网 ...
    3 n8 F* L9 M( R) X9 U* y
    官网有防爬虫之类措施没?

    该用户从未签到

    发表于 2016-9-28 09:13:50 | 显示全部楼层
    henices 发表于 2016-9-28 09:06
    ) p& b6 e( Q$ }# F( {官网有防爬虫之类措施没?
    2 c3 Z# B- q6 o$ ~* |2 k4 f+ v4 F$ L
    都能用单词表去轰,肯定是没有啦
    4 t. g2 h' x8 ~4 T" [8 L8 y就算有,无非是封IP,现在都是ADSL,重启一下路由IP就换啦& [5 g8 G) H! C/ Q" F% a
    据我所知,除非记录一个IP在某个时间段的访问量,否则是没办法防的,但是抓网页其实费不了什么带宽,基本上像样的服务器都不会在乎这点下载量,抓本词典也就几百兆1G而已,和普通网页用户访问几乎没啥差别,一般服务器也懒得费那个工夫
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-28 09:18:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12( O( Y( h4 \# I7 \( K' N9 O/ z) g" |
    有重新弄的必要吗?

    * `2 o  t' o, m3 v离线的词条数是97239,qiuhao1112大的词条数是91384,少了6%。

    该用户从未签到

    发表于 2016-9-28 12:09:05 | 显示全部楼层
    henices 发表于 2016-9-28 09:06
    7 P% c/ W: [) C6 J+ j& W; s: s  D: b5 ~官网有防爬虫之类措施没?
    0 H9 S4 ^. q1 g6 O" R- H; ?8 x

    , c2 h: Q2 f( a0 e! \2 p$ p建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)
    ' z0 E; O1 i% Q4 L有时候一图胜过千万语
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:26:19 | 显示全部楼层
    真是奇怪,我有一次用有道官网查单词,居然被封了一次IP

    点评

    看来兄弟的人品确实是有问题的,哈哈,开个玩笑  发表于 2016-9-28 15:30
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:31:53 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 12:33 编辑
    ; C# B9 s* W! _" W$ t* W$ ]9 r! H
    bt4baidu 发表于 2016-9-28 12:09
    , W- z; i; d- \建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)7 {2 ~$ P& N5 ^. [- ]
    ...
    : D3 R( |6 o2 O4 E& d
    2 Q" w; z: F% D( K% J
    以前没有用mdx词典时,用有道在线的柯林斯双解用了无数次,没有发现柯林斯双解有过图;有图的单词图片经常是错的,要抓有图的单词,不如去抓bing dictionary online的图片,单词与图片对应得非常准确!
    8 f7 Y2 K8 I* b6 r4 `* x5 w8 Q- s+ _8 b& w; `' Y* ^+ ]
    bing dictionary online: http://cn.bing.com/dict/

    该用户从未签到

    发表于 2016-9-29 02:25:16 | 显示全部楼层
    才发现原来有道的柯林斯不是单单的cobuild双解啊,我一直奇怪为何讨论这个:不是早就有了吗?原来如此,大力支持有IT能力的兄弟搞一个。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-10-12 23:49:52 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-10-13 13:02 编辑 8 y6 k- F. r& t$ i
    0 n; T! V# N" r! O3 O- \0 S2 B
    还发现一个单词pal,在线版的有道柯林斯双解是有语域 [非正式,老式]http://dict.youdao.com/w/eng/pal/#keyfrom=dict2.index,而离线的柯林斯双解数据没有这部分。看来离线的柯林斯双解数据没有跟上在线的柯林斯双解数据的更新。% `0 E3 _6 Q# d7 m! o$ @

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-1 23:23:25 | 显示全部楼层
    已经用离线词头抓取数据,整理制作中

    该用户从未签到

    发表于 2016-12-27 12:27:04 | 显示全部楼层
    非常有必要,加油

    该用户从未签到

    发表于 2016-12-29 19:46:48 | 显示全部楼层
    有道 有些坑

    该用户从未签到

    发表于 2017-4-2 14:09:19 | 显示全部楼层
    感谢您的分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-24 18:45 , Processed in 0.071137 second(s), 14 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表