bolome1 发表于 2014-7-20 17:32:29

自己动手:VOCABULARY.COM DICTIONARY 自动更新

本帖最后由 bolome1 于 2014-7-20 17:59 编辑

搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html

自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12390

但是还是有缺憾,词频的数据抓取不全。
不过刚才发现了解决方案:
https://github.com/OZv/E/blob/master/README.md


待编辑...

bolome1 发表于 2014-7-20 17:45:43

占楼

bt4baidu 发表于 2014-7-20 21:23:07

呵呵,倒替我做起宣传来了,再加几条:

这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下

自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;
更有强大的错误检测可以保证数据完整无误。

bolome1 发表于 2014-7-20 22:24:38

本帖最后由 bolome1 于 2014-7-20 22:29 编辑

bt4baidu 发表于 2014-7-20 21:23 static/image/common/back.gif
呵呵,倒替我做起宣传来了,再加几条:

这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...

用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
再次感谢!

bt4baidu 发表于 2014-7-20 22:41:35

bolome1 发表于 2014-7-20 22:24 static/image/common/back.gif
用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
再次感谢!

这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。

本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。

bolome1 发表于 2014-7-21 10:00:00

bt4baidu 发表于 2014-7-20 22:41 static/image/common/back.gif
这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

其实reuters、BBC NEWS、VOA、Yahoo NE ...

嗯,有时间试试reuters,另外,卫报排版也还行
还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒

bolome1 发表于 2014-7-21 17:24:13

本帖最后由 bolome1 于 2014-7-21 18:00 编辑

bt4baidu 发表于 2014-7-20 22:41 static/image/common/back.gif
这些可都是英美主流报章的实时例句,高频词一天都更新好几回的

其实reuters、BBC NEWS、VOA、Yahoo NE ...

在使用的时候有一个小小de地方不太方便,也不能算是bug。
因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。
在使用vocabulary.com dictionary的时候遇到了的小问题如下:

请单击点开看大图


也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。
如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。

如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:}

bt4baidu 发表于 2014-7-21 19:42:22

bolome1 发表于 2014-7-21 17:24 static/image/common/back.gif
在使用的时候有一个小小de地方不太方便,也不能算是bug。
因为我在使用Goldendict的时候通常需要复制短 ...

直接双击就跳转了啊,为什么要先单击选择后再双击呢。
不过双击时也会出现这种问题。{:10_277:}
这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。

欧路单击跳查就没有这个问题。

回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”

下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。
也许逢大型节假日会更新一下数据,那个时候可以做些调整。

bolome1 发表于 2014-7-22 19:54:17

bt4baidu 发表于 2014-7-21 19:42 static/image/common/back.gif
直接双击就跳转了啊,为什么要先单击选择后再双击呢。
不过双击时也会出现这种问题。
这应该 ...

发现一个小问题
"throw up"这个短语没有usage examples (查原网站是有的)
手机的欧路和PC的GoldenDict均无法显示。

bt4baidu 发表于 2014-7-22 21:02:58

bolome1 发表于 2014-7-22 19:54 static/image/common/back.gif
发现一个小问题
"throw up"这个短语没有usage examples (查原网站是有的)
手机的欧路和PC的GoldenD ...

这是个大问题啊

果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。
这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。

原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。


继续帮我挑错,攒到一块改{:10_301:}

bt4baidu 发表于 2014-7-23 22:19:51

增加一处备份,以防GitHub被墙

http://git.oschina.net/OZv/OC/

robinlei 发表于 2014-7-26 08:41:40

你激发了我学习python的热情

bolome1 发表于 2014-7-26 20:52:30

本帖最后由 bolome1 于 2014-7-26 20:55 编辑

bt4baidu 发表于 2014-7-23 22:19 static/image/common/back.gif
增加一处备份,以防GitHub被墙

http://git.oschina.net/OZv/OC/

比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
大概就是这个规律。

bt4baidu 发表于 2014-7-26 21:25:31

bolome1 发表于 2014-7-26 20:52 static/image/common/back.gif
比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
...

可以确定是欧路的问题。
你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。

欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。
IOS版欧路有一个问题也是点击跳查时发生的:
不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。
这个问题在Android版没有出现。

bolome1 发表于 2014-7-26 21:28:50

本帖最后由 bolome1 于 2014-7-26 21:30 编辑

bt4baidu 发表于 2014-7-26 21:25 static/image/common/back.gif
可以确定是欧路的问题。
你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。



那usage example和下面wordnet部分的单词都没问题如何解释呐?

bt4baidu 发表于 2014-7-26 21:47:52

bolome1 发表于 2014-7-26 21:28 static/image/common/back.gif
那usage example和下面wordnet部分的单词都没问题如何解释呐?

这就是欧路诡异的地方了

我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。

至于别的地方单词没问题,这和欧路的代码实现方式有关。
如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。

为什么说是欧路的问题,可以做以下试验:
把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。

其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的
搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。

bolome1 发表于 2014-7-26 21:55:44

bt4baidu 发表于 2014-7-26 21:47 static/image/common/back.gif
这就是欧路诡异的地方了

我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...

记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:}

bt4baidu 发表于 2014-7-26 22:46:41

bolome1 发表于 2014-7-26 21:55 static/image/common/back.gif
记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。

愿望是美好的,现实通常是残酷的。。。

从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关
css外置不太可能回避该问题

建议在软件里 提交问题改进建议 给欧路

ceoyee 发表于 2014-7-28 09:53:16

bt4baidu 发表于 2014-7-20 21:23 static/image/common/back.gif
呵呵,倒替我做起宣传来了,再加几条:

这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...

原來bt4baidu 你是學編程的{:4_104:}

bt4baidu 发表于 2014-8-2 12:41:14

bolome1 发表于 2014-7-26 21:55 static/image/common/back.gif
记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。

如你所说,css外置以后这个问题消失了。。。

至少我的IOS版欧路没有再发生点击后部分文字消失的问题

bolome1 发表于 2014-11-25 09:17:54

本帖最后由 bolome1 于 2014-11-25 09:19 编辑

bt4baidu 发表于 2014-8-2 12:41
如你所说,css外置以后这个问题消失了。。。

至少我的IOS版欧路没有再发生点击后部分文字消失的问题

https://www.pdawiki.com/forum/data/attachment/album/201411/25/091703gm9vmizhgbzeqafr.jpg

这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。

haohao2046 发表于 2015-10-31 16:59:46

能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细

安装python 2.7.6
windows下要再安装python加载器,否则弹出一堆窗口很烦人
https://bitbucket.org/vinay.sajip/pylauncher/downloads/launcher.msi
安装lxml 3.3.5
安装BeautifulSoup 4.3.2
安装urllib3
将wordlist.txt和以上两脚本文件放在同一目录下

Fannieray 发表于 2015-11-1 18:35:02

厉害
页: [1]
查看完整版本: 自己动手:VOCABULARY.COM DICTIONARY 自动更新