掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3746|回复: 22

[词典讨论] 自己动手:VOCABULARY.COM DICTIONARY 自动更新

[复制链接]
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-20 17:32:29 | 显示全部楼层 |阅读模式
    本帖最后由 bolome1 于 2014-7-20 17:59 编辑
    + }4 O# C: _+ X, X  \' O$ A( X0 w2 }0 [4 h! p" a) L" s5 g2 h' |+ [( J
    搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html
    8 S) T0 S* g  w# }, P/ F. V
    9 w0 d8 _, d9 R' n自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/fo ... hread&tid=12390
    6 b- ?& q9 Q5 f0 e# y  B: a" f, @+ C: N0 Z* W5 G
    但是还是有缺憾,词频的数据抓取不全。
    0 X. {5 P6 P$ Y' j% Z3 i, a7 i不过刚才发现了解决方案:
    ( J9 o5 \% G& chttps://github.com/OZv/E/blob/master/README.md
    ; a3 P) F9 r0 x0 \# x. P% L  k2 f2 @& q, n3 x5 |0 d
    ; u. s, w. y. W3 M0 H/ a
    待编辑...
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 17:45:43 | 显示全部楼层
    占楼

    该用户从未签到

    发表于 2014-7-20 21:23:07 | 显示全部楼层
    呵呵,倒替我做起宣传来了,再加几条:
    . V( w6 S8 ?5 d
    1 ?3 D  ?, W# [) y这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下8 a6 k+ o9 D' P8 u! |. f& T$ @

    2 D! q. |" c+ p2 W自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;8 X3 R' y: p% O# K2 O
    更有强大的错误检测可以保证数据完整无误。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 22:24:38 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-20 22:29 编辑 0 z  u$ w0 l- B- j# G4 g' K
    bt4baidu 发表于 2014-7-20 21:23 ; K1 R+ j! c% d/ S
    呵呵,倒替我做起宣传来了,再加几条:- U+ \0 g: |/ n; T" R
    % V& r% q( e7 l: Q+ j2 l
    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
    ( U- \9 R) }; X6 T& z6 M: F

    % q0 z" _. i& a/ T( V4 w6 ~: a用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
    ! z' \# T  b) s! Y: U; p再次感谢!

    该用户从未签到

    发表于 2014-7-20 22:41:35 | 显示全部楼层
    bolome1 发表于 2014-7-20 22:24 " d( [  h7 V* g+ V+ o$ f% r# y
    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的  ~3 f  P) C! R  |: q5 Z4 i, R
    再次感谢!
    - M0 I' g7 u) u) S
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的+ p% z2 r7 F) Z8 [( A" K
    - w; y2 O0 \& m9 h
    其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。
    + u9 W# k2 y' X# \2 _
    + f  h6 a! w' e( V- a0 {* Z本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 10:00:00 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 22:41 ( r$ [( z7 Z4 {0 U3 }& D
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
    8 O7 K6 S5 D1 M! Z/ u, T8 A& x0 |* D' q% d: N+ I2 ?4 C
    其实reuters、BBC NEWS、VOA、Yahoo NE ...

    ! H8 Y8 R9 n, c; F4 g* K嗯,有时间试试reuters,另外,卫报排版也还行
    : N* t: }  H- q) O还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 17:24:13 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-21 18:00 编辑 ' |0 Y; o% B. \: q9 s
    bt4baidu 发表于 2014-7-20 22:41
    8 F1 \* o- r) B5 V6 s5 r3 ^6 q- y1 g& o这些可都是英美主流报章的实时例句,高频词一天都更新好几回的% C) \& l7 f6 T  G" d. E  Y( q
    : C# d) Q' [& ^/ W' t
    其实reuters、BBC NEWS、VOA、Yahoo NE ...

    * @9 [; B; @& R3 v1 H# B8 D; V3 h0 B: p
    在使用的时候有一个小小de地方不太方便,也不能算是bug。
    . Z0 V" Z; x* D$ X因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。( o! t4 ?' u( v
    在使用vocabulary.com dictionary的时候遇到了的小问题如下:! \, k1 [/ f1 [9 g) c

    $ q2 z! X) y+ t. f  b3 s% L请单击点开看大图6 ~" K6 `% X+ l& |2 M9 d2 _

    ' |! w- @2 c* ]7 {! h
    ( Q# O) _* J0 X# P0 b: {也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。
    ' y$ r( S( Z' t/ M如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。( Q* y7 F* t! I( g

    3 Y& W! k. d3 P4 n5 D2 e. b如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:}

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-21 19:42:22 | 显示全部楼层
    bolome1 发表于 2014-7-21 17:24 ; x% ~  W4 O9 N. _* C
    在使用的时候有一个小小de地方不太方便,也不能算是bug。' D* i  `! h6 T3 i
    因为我在使用Goldendict的时候通常需要复制短 ...
    , `2 R# T( J) @- m7 x+ e
    直接双击就跳转了啊,为什么要先单击选择后再双击呢。( m* L8 H; w7 M, c
    不过双击时也会出现这种问题。{:10_277:}
    4 H# ^7 G- Q1 R" O这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。6 D/ w0 a! x! H) A
    8 J( R& X$ E: G5 ~; C
    欧路单击跳查就没有这个问题。( f/ v- F! c# w* `+ E2 |

    % i6 d! O$ V, b; Y2 E回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”
    + a3 b( _! Z) p* P3 S5 _9 Z1 }; t$ o1 j1 }8 `- {' g0 `, l& l
    下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。2 w; r8 ?4 x/ \# L  u: E' j
    也许逢大型节假日会更新一下数据,那个时候可以做些调整。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-22 19:54:17 | 显示全部楼层
    bt4baidu 发表于 2014-7-21 19:42 # `$ n2 B* h9 ^7 z# C8 k
    直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    ! p0 W; X- V/ Q# [4 R" c不过双击时也会出现这种问题。
    6 \3 p' G. @/ W1 x* g这应该 ...

    1 t% i% T( A" ~
    5 ^/ [" I: |. e% ]( W! q发现一个小问题  v* t" e, b4 C
    "throw up"这个短语没有usage examples (查原网站是有的)2 {7 K, i5 f. e2 X9 d" V
    手机的欧路和PC的GoldenDict均无法显示。

    该用户从未签到

    发表于 2014-7-22 21:02:58 | 显示全部楼层
    bolome1 发表于 2014-7-22 19:54
    - x& Z4 f& Y( w0 n发现一个小问题5 G8 S4 ]6 m+ A  f
    "throw up"这个短语没有usage examples (查原网站是有的)
    $ ]1 M3 y/ t% t& c3 ~  [手机的欧路和PC的GoldenD ...

    9 G) `: X! n2 Y8 [8 [& j1 }这是个大问题啊
    ) X" h- n2 j( |/ h& P) P
    1 l! m6 Z" l  F2 W% }; {0 V1 N6 R果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。, m9 \. ^# ?! R$ s& C- F/ @! e1 F
    这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。
    1 M2 y% F: T6 C- U3 w' f
    $ ?7 w+ b$ B6 ]2 i1 j, M* D% \原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。
    ' G- P% p% L/ t. u& b; G
    + _4 q4 K! n8 `+ ]( i7 e9 a; G, g1 `
    ) [5 v$ A6 {0 j5 U' P# }+ a继续帮我挑错,攒到一块改{:10_301:}

    该用户从未签到

    发表于 2014-7-23 22:19:51 | 显示全部楼层
    增加一处备份,以防GitHub被墙
    ! n# P" x2 ]3 ~
    0 K4 p2 C' v) q! s3 X  Mhttp://git.oschina.net/OZv/OC/
    + T& p/ i3 c8 }7 l( y; F9 [# {' z

    该用户从未签到

    发表于 2014-7-26 08:41:40 | 显示全部楼层
    你激发了我学习python的热情
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 20:52:30 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 20:55 编辑
    7 G: }9 f4 x6 y( }- M) ]8 D' j2 M
    bt4baidu 发表于 2014-7-23 22:19
    8 a6 B: f) K4 b) ^9 k. g% M8 P增加一处备份,以防GitHub被墙
    9 ^8 I/ w2 ]* c  F- R4 N0 F, Z/ }& b9 B& p: s0 E/ v
    http://git.oschina.net/OZv/OC/
    ; x% g, L/ r$ u0 `# v. S

    - s7 v2 u+ b- T! B( W比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    + C5 }* Z( Z+ P& Y大概就是这个规律。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-26 21:25:31 | 显示全部楼层
    bolome1 发表于 2014-7-26 20:52 ( _2 Z! A8 k! t
    比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    ! C9 b% x3 `# V+ n3 h ...

    8 h% I. J. v; F8 `' e- Z0 C可以确定是欧路的问题。+ M( C8 a5 H2 k3 b9 ?' r2 z+ G: e
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
    2 p5 Y5 S/ o5 Y- W! T9 h* N0 [! a; N/ g
    欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。
    ( D1 m5 z8 _% u/ T7 t& aIOS版欧路有一个问题也是点击跳查时发生的:2 R. R# d2 L( N1 g& T9 A+ F& {' A4 f5 V
    不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。' L, `! Q6 \- W) s( }# c# M
    这个问题在Android版没有出现。$ O) {5 f6 R1 D+ T" g. G
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:28:50 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 21:30 编辑
    $ q% Y- ]1 ^. U# r( D( n/ H
    bt4baidu 发表于 2014-7-26 21:25
    3 _$ O( k8 d, F& T6 X5 L# i可以确定是欧路的问题。) P; i% F4 l! H* S0 K3 i; p
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
    7 V7 ?$ T  d% |8 w) P

    ; u! ]. }) |, {# A3 v. @那usage example和下面wordnet部分的单词都没问题如何解释呐?

    该用户从未签到

    发表于 2014-7-26 21:47:52 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:28
    : h) o8 Q# E5 A% R! b+ C那usage example和下面wordnet部分的单词都没问题如何解释呐?
    , S( v1 b5 ~% M! H
    这就是欧路诡异的地方了
    2 k% H7 h) R: k( ^! E; f" _9 E& N. P3 x/ S6 d* k% z
    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。
    " q9 s9 Y; e* D3 d# {! I# w) r1 W% W2 d/ U8 b) h# R2 h
    至于别的地方单词没问题,这和欧路的代码实现方式有关。
    7 I: S; ^3 U+ P: I/ C  Z如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。& x& B# Q4 j9 |( x

    & }$ Z0 m7 K6 T4 V: _: }为什么说是欧路的问题,可以做以下试验:
    3 K( j0 J9 V6 D9 D/ `9 ~把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。" q" y# _+ u5 f* g. [
    # |$ _$ ~: q. p) F' f$ j
    其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的8 A$ H) G, p4 p" ]' n1 g* ~) D/ `
    搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:55:44 | 显示全部楼层
    bt4baidu 发表于 2014-7-26 21:47
    % P) Y3 R5 K. ?2 b( n: M2 E这就是欧路诡异的地方了
    . i" w& Y, A7 ]* j& n# r' u' w1 B6 d6 I! |5 N+ G7 S4 Q
    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...
    5 V# p, C' ?" ?( t. E6 L' N- ?7 y
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:}

    该用户从未签到

    发表于 2014-7-26 22:46:41 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55
    7 L4 `. _1 b0 [1 |, f记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
    & I( u: W' ^& P; U2 B9 [% J* V
    愿望是美好的,现实通常是残酷的。。。1 y0 r$ e( C: g, m3 g$ x% g/ x2 j
    8 ?1 q: p, ^0 H8 c* a
    从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关. _! u9 d# J9 L/ U7 F0 s
    css外置不太可能回避该问题- k9 k" X% ?5 M0 v) f" G( j5 y# U
    : q+ E3 w1 T$ V' Q$ `' x
    建议在软件里 提交问题改进建议 给欧路

    点评

    提交了,反正GD才是我的爱  发表于 2014-7-26 22:59

    该用户从未签到

    发表于 2014-7-28 09:53:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 21:23
    ! t- q* O" c" _' T呵呵,倒替我做起宣传来了,再加几条:- T% V" }7 \4 _6 S! r8 K

    0 D; e# R9 {' ]: j& n" h, E3 _这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...

    0 C7 h8 }. x- C" q2 v- a! \原來bt4baidu 你是學編程的

    该用户从未签到

    发表于 2014-8-2 12:41:14 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55
    9 ~$ w$ e5 H! ^: P- o记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
    + g9 u: e8 C% A/ M6 K2 o
    如你所说,css外置以后这个问题消失了。。。
    $ K3 z3 Z4 n7 \0 S
    & c0 c0 J- [' r6 I至少我的IOS版欧路没有再发生点击后部分文字消失的问题
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-11-25 09:17:54 | 显示全部楼层
    本帖最后由 bolome1 于 2014-11-25 09:19 编辑 ( n! C! `' |' H( C
    bt4baidu 发表于 2014-8-2 12:41
    # F5 ^' ^9 y1 c9 E. v& F如你所说,css外置以后这个问题消失了。。。
    5 x% \) M7 c( w8 F9 Q
      x; }& w2 K5 c+ \: X, n4 e* V至少我的IOS版欧路没有再发生点击后部分文字消失的问题

    3 Z, R5 K3 q8 K3 z- f" x( @2 a' G. ~- M: n- ^' W% j% y) Q  P

    . `+ s  l! I9 ?6 v. t
    3 W# X8 m' l) p' S3 a这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。
  • TA的每日心情
    开心
    2023-7-25 23:58
  • 签到天数: 228 天

    [LV.7]常住居民III

    发表于 2015-10-31 16:59:46 | 显示全部楼层
    能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细
    ( T+ b/ P8 c& ]6 i; ~
    # F9 Z7 T/ D! I: j5 Z安装python 2.7.6+ Q9 O/ J' E8 M/ p% f4 ]
    windows下要再安装python加载器,否则弹出一堆窗口很烦人
    8 h% [' v3 K+ u( W, @/ Zhttps://bitbucket.org/vinay.saji ... nloads/launcher.msi
    / [. O' K$ I( S9 X2 b/ n' z7 w2 y! x安装lxml 3.3.5
    ' I8 r& s5 }$ `, `0 N安装BeautifulSoup 4.3.2
    , Y+ V% P+ X' i8 {安装urllib3
    $ F& b/ L0 D5 w+ m7 V# [将wordlist.txt和以上两脚本文件放在同一目录下
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-6 17:48 , Processed in 0.025821 second(s), 23 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表