掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5309|回复: 32

[词典讯] 有道字典手机版提供了离线柯林斯词库

[复制链接]
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2016-8-22 21:23:03 | 显示全部楼层 |阅读模式
    如题,离线词库格式为dat,下面是离线词库链接,不知哪位大神可以提取出来,毕竟坛中的双解柯林斯多或多或少的有些缺失。9 B3 I+ ~: V4 ]& k( N3 Y* i3 H

    9 d  d$ |5 `; x, N  x, dhttp://pan.baidu.com/share/link? ... 8&uk=2500300905

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-9-28 08:39:12 | 显示全部楼层
    本帖最后由 bt4baidu 于 2016-9-28 08:40 编辑
    & ?3 A5 B8 g1 ]$ u, O" `) U) M- }, d
    如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可4 |2 ]  g: C& v1 h3 B$ z) X
    - A5 _0 G# r( e+ A; C9 Z  H
    如果离线数据收了官网未收的单词,抓取时会报404错,自然知道官网缺哪些词,就可以把这些词从离线版里抽出来整合进去% A- `7 K1 g. v& L3 |$ o
    % h* R- d) k/ ]8 g. \+ h
    至于官网收而离线未收的单词,就比较不好办,不过既然qiuhao1112之前用单词表轰过,可以用他那版的词头和新作差分一下,也就是几行代码的事情' Q. m- [# |2 ^
    或者用CED的单词表和新作差分后,再去轰一下也未尝不可
    ! S4 V5 z" ^3 m  o
    7 v2 H  l. Z: N; F: T6 y# m只提供思路,英汉词典,本人是不会出手的
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-9-28 08:38:28 来自手机 | 显示全部楼层
    非常有必要!以后说不定都搞成在线的了,趁现在还有离线数据把它搞出来也是一件大功德

    点评

    同感啊!支持~~  发表于 2016-9-28 09:02
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 01:13:18 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 01:16 编辑
    2 |% Q; d% u6 U# B- r7 w
    henices 发表于 2016-9-27 23:12
    9 Q7 p) J" s9 H- y有重新弄的必要吗?

    1 O* x# D! w, Z! K6 p) a
    % ^  _. `, z+ j个人建议henices大可以把有道的柯林斯双解的离线数据提取出来制成mdx词典,然后跟qiuhao1112常委网页上抓取的版本进行合并,能做到词条的完整。qiuhao1112常委抓取有道柯林斯双解的数据是用单词表去轰炸的(这种情况是针对词典网页完全没有词头索引的情况),难免有遗漏的词条。(抓网页的单词表中没有那个单词就会造成词条的缺失)。但是,有道官网的柯林斯双解数据更加新和更加完整。您可以在有道官网查grieve词条,可以发现第二个义项下的释义与离线版的柯林斯双解相比,官网的增加了grieve的语域Scottish。说到这里,突然意识到我刚才说的合并词典很有困难:有道官网的柯林斯双解数据更加新和更加完整。
    " b1 t" R4 j7 S# y3 ?我在这个链接下的帖子中探讨了grieve词条:
    3 P  A7 S+ h6 S1 W1 shttps://www.pdawiki.com/forum/fo ... hread&tid=17422

    该用户从未签到

    发表于 2016-9-27 23:48:37 | 显示全部楼层
    這是當然有必要的!有道的柯林斯英漢雙解大詞典,誠如 O 大所說,是以稀為貴的代表。即使可能有這樣那樣的問題,但是結合多個數據源,一定是能精益求精的。

    该用户从未签到

    发表于 2016-9-27 23:12:34 | 显示全部楼层
    有重新弄的必要吗?

    该用户从未签到

    发表于 2016-9-27 23:26:39 | 显示全部楼层
    henices 发表于 2016-9-27 23:125 R) l! ^: s1 C3 X! k/ j
    有重新弄的必要吗?
    ' q5 Z5 c+ `; S- Y
    3 ~3 S* W2 O7 `, L2 ~

    $ A4 @% m/ |* r% ~3 F" y相当有必要!0 B! }/ [7 ?* r
    qiuhao1112 抓取的版本,缺了大概 1% 。不过有道这离线版本,其实数据也比较糟糕,不过凭兄台的能力,肯定没问题的。9 X6 Q& }2 N1 {2 ^
    有道词典的《柯林斯英汉双解大词典》,收词量其实是 Collins English Dictionary 级别,远超金山词霸的《柯林斯COBUILD高阶英汉双解学习词典》,堪比《新牛津英汉双解大词典》,虽然缺少了词源,译文也欠讲究,但是终究是稀有的东西,很有参考价值。, o2 L) D& u% c- i

    2 r" l  z, Q' N% A5 \
    % P3 A' G0 W/ O$ n. o' j1 C* \, k
  • TA的每日心情
    开心
    3 天前
  • 签到天数: 759 天

    [LV.10]以坛为家III

    发表于 2016-9-27 23:48:25 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    % a0 T' b. [9 X9 N) o% v* B有重新弄的必要吗?
    ( c/ \7 r% U; t$ w1 Y8 b
    有必要,很有必要。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 00:47:56 | 显示全部楼层
    henices 发表于 2016-9-27 23:12, U, ]; g' U; {% ^) p
    有重新弄的必要吗?
    8 ^) q2 u, p, R5 ~- C- G) L
    目前发现qiuhao1112常委的有道柯林斯双解的词条与有道官网相比,少了词条bloodletting,不知道有没有少其他词条。

    该用户从未签到

    发表于 2016-9-28 08:52:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12' g$ ^; P6 \- p) K: ^2 z5 U2 |
    有重新弄的必要吗?

    + s$ {+ _) v+ o$ E1 ~% |大神您既然都问出来了,想必也是已经有几分想制作的念头了。其实这个柯林斯词典的母本就和柯林斯的足本(http://www.collinsdictionary.com/dictionary/english)有渊源。可以说,它是个双解版的类足本词典,这类词典基本上比较少。
    3 A9 t9 {$ p" Q+ g. M" H4 C, U* m
    想楼主与大家都比较喜欢的《新牛津英汉双解大词典》,可以说能与之比肩。细想起来了,同等规模的双解足本,大多没有电子版数据。比如新出的《新世纪英汉大词典》,所以这本有道柯林斯,就是当仁不让的柯林斯双解足本的替代品了。它里面的内容是混搭的,融合了COBUILD的例句解释(这就对英语学习者比较友好了)和《新世纪英汉大词典》方面的大容量(其词条容量是柯林斯高阶的两倍多),不可谓不强。
    , p+ A( I& @; _# @7 F
    3 ]0 u9 b: a3 D, n; p& T2 O楼主已经掌握解析 dat 数据的秘诀,取得数据也是不费吹灰之力之事。若是下定决定决心制作。也是很好的事情!另外,bt4baidu 大神的思路也是极好的,楼主也可以参考看看。

    该用户从未签到

    发表于 2016-9-28 09:06:50 | 显示全部楼层
    bt4baidu 发表于 2016-9-28 08:39* X3 r5 X( a4 V% P; u
    如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可
    / [- c+ \- m/ b" `% E0 O+ r' b. J9 C; Z. k
    如果离线数据收了官网 ...

    ' l( [2 q- I: J1 Q1 E官网有防爬虫之类措施没?

    该用户从未签到

    发表于 2016-9-28 09:13:50 | 显示全部楼层
    henices 发表于 2016-9-28 09:06
    # v1 t, w* }& P/ j4 D1 ?3 H& F官网有防爬虫之类措施没?

    8 i. O5 z& |5 }1 L7 o. t0 }  z% H都能用单词表去轰,肯定是没有啦' c0 t( f' O, Q$ L7 {0 F0 V. f
    就算有,无非是封IP,现在都是ADSL,重启一下路由IP就换啦) m8 c0 L$ l8 |5 {$ F
    据我所知,除非记录一个IP在某个时间段的访问量,否则是没办法防的,但是抓网页其实费不了什么带宽,基本上像样的服务器都不会在乎这点下载量,抓本词典也就几百兆1G而已,和普通网页用户访问几乎没啥差别,一般服务器也懒得费那个工夫
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-28 09:18:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    , E# O/ J4 @9 ^7 c& }4 C; A; W+ u有重新弄的必要吗?
    # P+ \( V: U6 P
    离线的词条数是97239,qiuhao1112大的词条数是91384,少了6%。

    该用户从未签到

    发表于 2016-9-28 12:09:05 | 显示全部楼层
    henices 发表于 2016-9-28 09:06
    / S2 X0 ^0 Z" B* V官网有防爬虫之类措施没?
    7 f$ e: I# [3 a+ C, L$ C  C- _
    9 W7 B1 I$ v# G5 J& @8 l, Z3 s
    建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)
    % d  U1 k: ?3 K4 `' D5 k1 ?/ p6 j有时候一图胜过千万语
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:26:19 | 显示全部楼层
    真是奇怪,我有一次用有道官网查单词,居然被封了一次IP

    点评

    看来兄弟的人品确实是有问题的,哈哈,开个玩笑  发表于 2016-9-28 15:30
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:31:53 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 12:33 编辑
      d  S# |7 n7 y( V: j' I
    bt4baidu 发表于 2016-9-28 12:09
    , b' a, z3 c5 j3 }建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)( I/ \% C. j; H, @
    ...
    2 K) P6 u" q4 ~' q8 C# l) J: l
      @$ R8 }' m+ a5 v8 m$ K
    以前没有用mdx词典时,用有道在线的柯林斯双解用了无数次,没有发现柯林斯双解有过图;有图的单词图片经常是错的,要抓有图的单词,不如去抓bing dictionary online的图片,单词与图片对应得非常准确!$ s6 w5 c5 B+ A: g7 U4 p
    2 T! p4 E- d2 M# W/ y4 f
    bing dictionary online: http://cn.bing.com/dict/

    该用户从未签到

    发表于 2016-9-29 02:25:16 | 显示全部楼层
    才发现原来有道的柯林斯不是单单的cobuild双解啊,我一直奇怪为何讨论这个:不是早就有了吗?原来如此,大力支持有IT能力的兄弟搞一个。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-10-12 23:49:52 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-10-13 13:02 编辑 # p1 n$ Q3 K6 @

    ; W' k& V3 Z8 ~还发现一个单词pal,在线版的有道柯林斯双解是有语域 [非正式,老式]http://dict.youdao.com/w/eng/pal/#keyfrom=dict2.index,而离线的柯林斯双解数据没有这部分。看来离线的柯林斯双解数据没有跟上在线的柯林斯双解数据的更新。
    $ o" p1 z) C8 S; f% W7 s, b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-1 23:23:25 | 显示全部楼层
    已经用离线词头抓取数据,整理制作中

    该用户从未签到

    发表于 2016-12-27 12:27:04 | 显示全部楼层
    非常有必要,加油

    该用户从未签到

    发表于 2016-12-29 19:46:48 | 显示全部楼层
    有道 有些坑

    该用户从未签到

    发表于 2017-4-2 14:09:19 | 显示全部楼层
    感谢您的分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-29 17:47 , Processed in 0.076249 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表