有道字典手机版提供了离线柯林斯词库
如题,离线词库格式为dat,下面是离线词库链接,不知哪位大神可以提取出来,毕竟坛中的双解柯林斯多或多或少的有些缺失。http://pan.baidu.com/share/link?shareid=1275951598&uk=2500300905 本帖最后由 bt4baidu 于 2016-9-28 08:40 编辑
如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可
如果离线数据收了官网未收的单词,抓取时会报404错,自然知道官网缺哪些词,就可以把这些词从离线版里抽出来整合进去
至于官网收而离线未收的单词,就比较不好办,不过既然qiuhao1112之前用单词表轰过,可以用他那版的词头和新作差分一下,也就是几行代码的事情
或者用CED的单词表和新作差分后,再去轰一下也未尝不可
只提供思路,英汉词典,本人是不会出手的{:4_108:} 非常有必要!以后说不定都搞成在线的了,趁现在还有离线数据把它搞出来也是一件大功德 本帖最后由 kyletruman 于 2016-9-28 01:16 编辑
henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
个人建议henices大可以把有道的柯林斯双解的离线数据提取出来制成mdx词典,然后跟qiuhao1112常委网页上抓取的版本进行合并,能做到词条的完整。qiuhao1112常委抓取有道柯林斯双解的数据是用单词表去轰炸的(这种情况是针对词典网页完全没有词头索引的情况),难免有遗漏的词条。(抓网页的单词表中没有那个单词就会造成词条的缺失)。但是,有道官网的柯林斯双解数据更加新和更加完整。您可以在有道官网查grieve词条,可以发现第二个义项下的释义与离线版的柯林斯双解相比,官网的增加了grieve的语域Scottish。说到这里,突然意识到我刚才说的合并词典很有困难:有道官网的柯林斯双解数据更加新和更加完整。
我在这个链接下的帖子中探讨了grieve词条:
https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=17422 這是當然有必要的!有道的柯林斯英漢雙解大詞典,誠如 O 大所說,是以稀為貴的代表。即使可能有這樣那樣的問題,但是結合多個數據源,一定是能精益求精的。 有重新弄的必要吗? henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
{:4_104:}
相当有必要!
qiuhao1112 抓取的版本,缺了大概 1% 。不过有道这离线版本,其实数据也比较糟糕,不过凭兄台的能力,肯定没问题的。
有道词典的《柯林斯英汉双解大词典》,收词量其实是 Collins English Dictionary 级别,远超金山词霸的《柯林斯COBUILD高阶英汉双解学习词典》,堪比《新牛津英汉双解大词典》,虽然缺少了词源,译文也欠讲究,但是终究是稀有的东西,很有参考价值。
henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
有必要,很有必要。{:11_395:} henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
目前发现qiuhao1112常委的有道柯林斯双解的词条与有道官网相比,少了词条bloodletting,不知道有没有少其他词条。 henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
大神您既然都问出来了,想必也是已经有几分想制作的念头了。其实这个柯林斯词典的母本就和柯林斯的足本(http://www.collinsdictionary.com/dictionary/english)有渊源。可以说,它是个双解版的类足本词典,这类词典基本上比较少。
想楼主与大家都比较喜欢的《新牛津英汉双解大词典》,可以说能与之比肩。细想起来了,同等规模的双解足本,大多没有电子版数据。比如新出的《新世纪英汉大词典》,所以这本有道柯林斯,就是当仁不让的柯林斯双解足本的替代品了。它里面的内容是混搭的,融合了COBUILD的例句解释(这就对英语学习者比较友好了)和《新世纪英汉大词典》方面的大容量(其词条容量是柯林斯高阶的两倍多),不可谓不强。
楼主已经掌握解析 dat 数据的秘诀,取得数据也是不费吹灰之力之事。若是下定决定决心制作。也是很好的事情!另外,bt4baidu 大神的思路也是极好的,楼主也可以参考看看。 bt4baidu 发表于 2016-9-28 08:39
如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可
如果离线数据收了官网 ...
官网有防爬虫之类措施没? henices 发表于 2016-9-28 09:06
官网有防爬虫之类措施没?
都能用单词表去轰,肯定是没有啦
就算有,无非是封IP,现在都是ADSL,重启一下路由IP就换啦
据我所知,除非记录一个IP在某个时间段的访问量,否则是没办法防的,但是抓网页其实费不了什么带宽,基本上像样的服务器都不会在乎这点下载量,抓本词典也就几百兆1G而已,和普通网页用户访问几乎没啥差别,一般服务器也懒得费那个工夫 henices 发表于 2016-9-27 23:12
有重新弄的必要吗?
离线的词条数是97239,qiuhao1112大的词条数是91384,少了6%。 henices 发表于 2016-9-28 09:06
官网有防爬虫之类措施没?
建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)
有时候一图胜过千万语 真是奇怪,我有一次用有道官网查单词,居然被封了一次IP 本帖最后由 kyletruman 于 2016-9-28 12:33 编辑
bt4baidu 发表于 2016-9-28 12:09
建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)
...
以前没有用mdx词典时,用有道在线的柯林斯双解用了无数次,没有发现柯林斯双解有过图;有图的单词图片经常是错的,要抓有图的单词,不如去抓bing dictionary online的图片,单词与图片对应得非常准确!
bing dictionary online: http://cn.bing.com/dict/ 才发现原来有道的柯林斯不是单单的cobuild双解啊,我一直奇怪为何讨论这个:不是早就有了吗?原来如此,大力支持有IT能力的兄弟搞一个。 本帖最后由 kyletruman 于 2016-10-13 13:02 编辑
还发现一个单词pal,在线版的有道柯林斯双解是有语域 [非正式,老式]http://dict.youdao.com/w/eng/pal/#keyfrom=dict2.index,而离线的柯林斯双解数据没有这部分。看来离线的柯林斯双解数据没有跟上在线的柯林斯双解数据的更新。
已经用离线词头抓取数据,整理制作中 支持 非常有必要,加油 有道 有些坑 顶 感谢您的分享 感谢!!!!!!!!!!
页:
[1]
2