自己动手:VOCABULARY.COM DICTIONARY 自动更新
本帖最后由 bolome1 于 2014-7-20 17:59 编辑搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html
自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=12390
但是还是有缺憾,词频的数据抓取不全。
不过刚才发现了解决方案:
https://github.com/OZv/E/blob/master/README.md
待编辑... 占楼 呵呵,倒替我做起宣传来了,再加几条:
这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下
自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;
更有强大的错误检测可以保证数据完整无误。 本帖最后由 bolome1 于 2014-7-20 22:29 编辑
bt4baidu 发表于 2014-7-20 21:23 static/image/common/back.gif
呵呵,倒替我做起宣传来了,再加几条:
这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
再次感谢! bolome1 发表于 2014-7-20 22:24 static/image/common/back.gif
用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
再次感谢!
这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。
本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。 bt4baidu 发表于 2014-7-20 22:41 static/image/common/back.gif
这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
其实reuters、BBC NEWS、VOA、Yahoo NE ...
嗯,有时间试试reuters,另外,卫报排版也还行
还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒 本帖最后由 bolome1 于 2014-7-21 18:00 编辑
bt4baidu 发表于 2014-7-20 22:41 static/image/common/back.gif
这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
其实reuters、BBC NEWS、VOA、Yahoo NE ...
在使用的时候有一个小小de地方不太方便,也不能算是bug。
因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。
在使用vocabulary.com dictionary的时候遇到了的小问题如下:
请单击点开看大图
也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。
如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。
如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:} bolome1 发表于 2014-7-21 17:24 static/image/common/back.gif
在使用的时候有一个小小de地方不太方便,也不能算是bug。
因为我在使用Goldendict的时候通常需要复制短 ...
直接双击就跳转了啊,为什么要先单击选择后再双击呢。
不过双击时也会出现这种问题。{:10_277:}
这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。
欧路单击跳查就没有这个问题。
回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”
下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。
也许逢大型节假日会更新一下数据,那个时候可以做些调整。 bt4baidu 发表于 2014-7-21 19:42 static/image/common/back.gif
直接双击就跳转了啊,为什么要先单击选择后再双击呢。
不过双击时也会出现这种问题。
这应该 ...
发现一个小问题
"throw up"这个短语没有usage examples (查原网站是有的)
手机的欧路和PC的GoldenDict均无法显示。 bolome1 发表于 2014-7-22 19:54 static/image/common/back.gif
发现一个小问题
"throw up"这个短语没有usage examples (查原网站是有的)
手机的欧路和PC的GoldenD ...
这是个大问题啊
果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。
这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。
原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。
继续帮我挑错,攒到一块改{:10_301:} 增加一处备份,以防GitHub被墙
http://git.oschina.net/OZv/OC/
你激发了我学习python的热情 本帖最后由 bolome1 于 2014-7-26 20:55 编辑
bt4baidu 发表于 2014-7-23 22:19 static/image/common/back.gif
增加一处备份,以防GitHub被墙
http://git.oschina.net/OZv/OC/
比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
大概就是这个规律。 bolome1 发表于 2014-7-26 20:52 static/image/common/back.gif
比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
...
可以确定是欧路的问题。
你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。
IOS版欧路有一个问题也是点击跳查时发生的:
不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。
这个问题在Android版没有出现。
本帖最后由 bolome1 于 2014-7-26 21:30 编辑
bt4baidu 发表于 2014-7-26 21:25 static/image/common/back.gif
可以确定是欧路的问题。
你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
那usage example和下面wordnet部分的单词都没问题如何解释呐? bolome1 发表于 2014-7-26 21:28 static/image/common/back.gif
那usage example和下面wordnet部分的单词都没问题如何解释呐?
这就是欧路诡异的地方了
我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。
至于别的地方单词没问题,这和欧路的代码实现方式有关。
如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。
为什么说是欧路的问题,可以做以下试验:
把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。
其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的
搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。 bt4baidu 发表于 2014-7-26 21:47 static/image/common/back.gif
这就是欧路诡异的地方了
我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...
记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:} bolome1 发表于 2014-7-26 21:55 static/image/common/back.gif
记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
愿望是美好的,现实通常是残酷的。。。
从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关
css外置不太可能回避该问题
建议在软件里 提交问题改进建议 给欧路 bt4baidu 发表于 2014-7-20 21:23 static/image/common/back.gif
呵呵,倒替我做起宣传来了,再加几条:
这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
原來bt4baidu 你是學編程的{:4_104:} bolome1 发表于 2014-7-26 21:55 static/image/common/back.gif
记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
如你所说,css外置以后这个问题消失了。。。
至少我的IOS版欧路没有再发生点击后部分文字消失的问题 本帖最后由 bolome1 于 2014-11-25 09:19 编辑
bt4baidu 发表于 2014-8-2 12:41
如你所说,css外置以后这个问题消失了。。。
至少我的IOS版欧路没有再发生点击后部分文字消失的问题
https://www.pdawiki.com/forum/data/attachment/album/201411/25/091703gm9vmizhgbzeqafr.jpg
这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。 能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细
安装python 2.7.6
windows下要再安装python加载器,否则弹出一堆窗口很烦人
https://bitbucket.org/vinay.sajip/pylauncher/downloads/launcher.msi
安装lxml 3.3.5
安装BeautifulSoup 4.3.2
安装urllib3
将wordlist.txt和以上两脚本文件放在同一目录下 厉害
页:
[1]