掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3802|回复: 22

[词典讨论] 自己动手:VOCABULARY.COM DICTIONARY 自动更新

[复制链接]
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-20 17:32:29 | 显示全部楼层 |阅读模式
    本帖最后由 bolome1 于 2014-7-20 17:59 编辑
    $ [1 Y5 ~; I& ^: z* j* z& T8 S  A+ r) A7 ~5 G" ?
    搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html4 ^0 M+ s0 j1 l+ ]- Q0 p5 f6 L5 P0 l
    / M0 i- i) v: w, p" z' w  ]! h  ~
    自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/fo ... hread&tid=123908 M. L6 A/ f+ W( R

    $ e$ j" d6 u& E0 V% q' S8 y& K* Q但是还是有缺憾,词频的数据抓取不全。
    8 c  Y5 D9 h$ }( R不过刚才发现了解决方案:% _7 u& R5 R# r2 l/ O) ^" n
    https://github.com/OZv/E/blob/master/README.md
    , D1 I- }0 s, ?% B' ?" A* g: ?' o0 e4 i  @

    + U/ x" u1 n( a# g- Y. y待编辑...
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 17:45:43 | 显示全部楼层
    占楼

    该用户从未签到

    发表于 2014-7-20 21:23:07 | 显示全部楼层
    呵呵,倒替我做起宣传来了,再加几条:
    . D( \1 b  e/ N% y
    $ `, U3 T6 W* c! ]: V- X这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下
    ! ^: s2 s0 E6 }% {3 N; g9 ^/ U
    ; ]0 ~0 Y  H/ z# R7 v自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;; R9 O3 Z; f- k* R+ ]
    更有强大的错误检测可以保证数据完整无误。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 22:24:38 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-20 22:29 编辑 ) H1 e) c( k$ K0 \; `7 ~# [7 {3 j
    bt4baidu 发表于 2014-7-20 21:23 ! r9 g" Z5 E) y+ [0 Q7 p
    呵呵,倒替我做起宣传来了,再加几条:  ]! ^0 @: c9 Q* b
    ( r! G% R8 {& K; [1 Z2 x% A
    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...

    9 I; v' W- x% k4 n" S; ]* F5 J' m  J9 q0 P
    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
    6 U, `, u/ C" E' _; Q- {$ w再次感谢!

    该用户从未签到

    发表于 2014-7-20 22:41:35 | 显示全部楼层
    bolome1 发表于 2014-7-20 22:24 * G. p0 U9 k, R: E+ M# B1 `
    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的% o" H1 I/ r. D. r
    再次感谢!

    - f/ Y7 ]7 i+ p7 ?. i9 T8 @4 k这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
    8 y+ d1 o2 R& j6 M9 y1 H) G, R2 }6 j( ^$ ?1 y4 k- W
    其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。
    & E  _- c) j! h: o1 e/ o7 g% D
    ! z/ y1 R% \4 u本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 10:00:00 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 22:41
    ( Q1 k4 o2 |; b5 O) W6 b这些可都是英美主流报章的实时例句,高频词一天都更新好几回的& E# t8 d& n3 T/ [* P

    5 r& F! ?$ D( d% F- p其实reuters、BBC NEWS、VOA、Yahoo NE ...
    ! j& x. t" Q4 P! Z) `& e# o7 ?
    嗯,有时间试试reuters,另外,卫报排版也还行
    / A9 Q' M2 V9 _1 z还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 17:24:13 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-21 18:00 编辑 1 [. a9 l5 i* E3 E* H2 r
    bt4baidu 发表于 2014-7-20 22:41 2 H: S0 B5 v. L' t$ q
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
    $ a$ n. D6 K9 X" T# Z7 ?( v7 d$ [+ ~' \; _( {; w! I5 |$ D
    其实reuters、BBC NEWS、VOA、Yahoo NE ...
    * E- x/ S9 X7 ]6 C9 Y: N

    # R' Q; E' F8 K4 {1 [. p在使用的时候有一个小小de地方不太方便,也不能算是bug。
    ! t$ j: e) l# }/ i8 I" I3 M' k4 F" `因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。/ E3 C% _) D, y/ ~
    在使用vocabulary.com dictionary的时候遇到了的小问题如下:7 E* p3 q5 Y5 `& C

    5 C0 \1 u# q' O: E6 r. @- T' r请单击点开看大图% G: k$ y: g5 ]& Z6 P

    * ?( q9 k: Z' m, F$ i. w8 g' E. w9 H- _: Y
    也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。
    8 A0 V0 I! Z( ~* O$ \1 C9 F& ~如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。
    ! u; I) x6 z' c+ O) Q' [9 ~% t$ E7 f4 V; V
    如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:}

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-21 19:42:22 | 显示全部楼层
    bolome1 发表于 2014-7-21 17:24 7 ]' g+ t3 Q, @, }. h
    在使用的时候有一个小小de地方不太方便,也不能算是bug。/ m& Z4 m0 m+ p
    因为我在使用Goldendict的时候通常需要复制短 ...

    8 n7 _8 a& k7 U  k: ]% x) j直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    7 A" {1 Z& Z" A/ i, i不过双击时也会出现这种问题。{:10_277:}# c6 _/ Q7 u( F
    这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。
      n7 ?/ b0 p) ]/ e: i0 i; W1 ?: x  w7 t/ q3 a
    欧路单击跳查就没有这个问题。. d6 |4 j7 v1 D5 m6 }
    6 f5 J* x: r% r
    回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”
    & S$ R8 U7 c9 F+ Y9 J2 _$ C8 H5 A, h" c0 ~/ t, N: O
    下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。, @5 A' y+ N( m. l
    也许逢大型节假日会更新一下数据,那个时候可以做些调整。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-22 19:54:17 | 显示全部楼层
    bt4baidu 发表于 2014-7-21 19:42
    , J; p: o4 {/ o& E4 F/ R$ q直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    9 ~3 m% a, ^# |不过双击时也会出现这种问题。
    / s1 h7 A7 V  s! f0 @这应该 ...
    $ a. M8 s& z8 J$ N5 n& x5 g

    - d, ~* y0 e5 a0 ?! u2 z1 Q发现一个小问题2 V7 t6 b$ X) J
    "throw up"这个短语没有usage examples (查原网站是有的)
    ! x6 A; l& o1 F9 ?: `手机的欧路和PC的GoldenDict均无法显示。

    该用户从未签到

    发表于 2014-7-22 21:02:58 | 显示全部楼层
    bolome1 发表于 2014-7-22 19:54
    ( D+ A' p0 i( L/ M+ \. ~9 ?( B发现一个小问题
    - I+ o9 n$ w  M0 a5 r"throw up"这个短语没有usage examples (查原网站是有的)
    & `# l$ }6 u, f0 ~手机的欧路和PC的GoldenD ...
    7 |  m4 [4 Q8 m, J- B
    这是个大问题啊
    % ]3 v0 S$ P' R+ d+ R$ C, }2 d2 E3 Y2 ?% l  n
    果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。) s9 }4 M2 S8 W( A8 C. t
    这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。: |" f6 r* y5 y# V* I4 j" N( Y6 j; I

    5 k' J- `- w$ f: g0 B8 O; w. Q原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。
    % e+ A) E' y* [4 t0 L( u5 x. a6 B- H
    4 e6 z+ S3 s9 l! a/ _% I
    继续帮我挑错,攒到一块改{:10_301:}

    该用户从未签到

    发表于 2014-7-23 22:19:51 | 显示全部楼层
    增加一处备份,以防GitHub被墙2 ?8 P1 z6 w! D3 S* d* H( K

    ' ~1 I, G/ g) k" |http://git.oschina.net/OZv/OC/6 ?: h, M, Y5 b$ \; j+ h

    ( H! \  K/ |" {2 a  _5 s3 v" v

    该用户从未签到

    发表于 2014-7-26 08:41:40 | 显示全部楼层
    你激发了我学习python的热情
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 20:52:30 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 20:55 编辑 - l% U* t2 K$ c0 v" S  A- j! z: ^
    bt4baidu 发表于 2014-7-23 22:19 9 _# q8 O4 _  S) u' W2 L/ K* @
    增加一处备份,以防GitHub被墙! ^9 P, e+ U4 k4 t
    ' w% f, k) t4 G+ U
    http://git.oschina.net/OZv/OC/
    , H4 {& l/ j4 m+ p# u

    / r8 Q5 C6 C: R+ l6 R  q2 S比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。9 o; c2 H4 _( ^6 a) s4 b$ L5 N! N
    大概就是这个规律。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-26 21:25:31 | 显示全部楼层
    bolome1 发表于 2014-7-26 20:52 ; l; M1 D4 ?$ A* O1 B
    比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    % ^% w' l2 @- u$ H/ u. C ...

    0 I2 K' V' C8 G& C& H" e" I可以确定是欧路的问题。* ^6 n; X. W, T9 N
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。( n  l/ d5 O3 Y5 E- y

    : E/ L$ v4 @% e4 \9 p5 `欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。
    3 p0 u* B4 Q9 V7 q& C& kIOS版欧路有一个问题也是点击跳查时发生的:" e  C3 n$ Y2 d2 g1 P
    不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。
    8 T/ O- A+ u+ s0 c5 C* a. j这个问题在Android版没有出现。; r3 G# q& B9 L% a! F8 `1 j9 v
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:28:50 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 21:30 编辑
    * k0 |6 ^8 R7 o, ?! n$ b# C6 W/ D; {
    bt4baidu 发表于 2014-7-26 21:25
    : L, \. s; s3 z" r' z* J可以确定是欧路的问题。
    , k2 p# E6 c; [' X) O你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
    * `: w; \' \8 {5 O

    0 l5 |6 b/ O4 m+ Q' ~: i- S那usage example和下面wordnet部分的单词都没问题如何解释呐?

    该用户从未签到

    发表于 2014-7-26 21:47:52 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:28
    6 z) }) b8 }7 \: S( Z那usage example和下面wordnet部分的单词都没问题如何解释呐?
    0 y0 O+ z8 G6 ?. q
    这就是欧路诡异的地方了9 K. A4 l( _' h; X

    & ], F  W, J2 \% B- @! Z我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。
    3 L  J. j$ a9 z5 i7 V, s1 T5 \
    $ N0 o) M, M' G' ^  E: z至于别的地方单词没问题,这和欧路的代码实现方式有关。& ^5 ~2 ?. R$ L5 ?, i8 `4 A
    如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。& l. L/ o' @7 c8 ?! C3 u% u

    9 S4 Y4 d- ~$ V为什么说是欧路的问题,可以做以下试验:; N4 R6 s( E$ d  _8 a
    把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。* p; H: ]7 G( [1 n8 x+ A5 \- ?
    3 }0 Q% S. n3 A0 M$ X
    其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的
    $ r4 v) z9 w; ?- C0 A搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:55:44 | 显示全部楼层
    bt4baidu 发表于 2014-7-26 21:47   m8 m- u: B9 M
    这就是欧路诡异的地方了2 K6 c* C7 R9 [' S# _
    + B4 f" P' l( E6 [9 e: g
    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...

    1 a7 r, J4 L) J4 i( P8 \; Y记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:}

    该用户从未签到

    发表于 2014-7-26 22:46:41 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55 ) U1 w4 r- b( w$ j
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。

    2 @3 M! k- t) `. Q愿望是美好的,现实通常是残酷的。。。
    * t( [, Z% a6 _& z1 q7 F) M
    7 S; [3 X% U1 c1 i+ f& Y# }& J4 _从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关8 `% l- C7 _, M
    css外置不太可能回避该问题! ]: f2 D; P9 p/ b3 ?' T0 `
    1 K( Z& K: ]: U" e
    建议在软件里 提交问题改进建议 给欧路

    点评

    提交了,反正GD才是我的爱  发表于 2014-7-26 22:59

    该用户从未签到

    发表于 2014-7-28 09:53:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 21:23 $ o7 c, k" B! l6 q
    呵呵,倒替我做起宣传来了,再加几条:
    % W( d# `% t( h; P3 Y1 h- N# l( Y% m* D* p4 x6 g
    这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
    5 c: e. W: y$ T# v0 o* D0 f2 G
    原來bt4baidu 你是學編程的

    该用户从未签到

    发表于 2014-8-2 12:41:14 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55 5 }! I/ e8 W2 o& o% A
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
      N# M  ]0 K9 O9 c. p
    如你所说,css外置以后这个问题消失了。。。
    3 k4 B; e+ J! r2 X  M. K0 x+ j9 K9 r: E  Y1 I# Z
    至少我的IOS版欧路没有再发生点击后部分文字消失的问题
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-11-25 09:17:54 | 显示全部楼层
    本帖最后由 bolome1 于 2014-11-25 09:19 编辑
    ' B6 F& j0 T/ h1 u! D" v4 v
    bt4baidu 发表于 2014-8-2 12:41
    8 g7 m  o3 Z, D- c如你所说,css外置以后这个问题消失了。。。# U; O" W: w8 A- s$ C  d

    % H5 V! F; p1 c7 a. u至少我的IOS版欧路没有再发生点击后部分文字消失的问题
    ! h; T( Y1 R  g: _
    - X- f, n% D4 W
    / z, Z: `# r( |% s, K# W/ m5 p

    8 b6 @! j! w: J3 d' }1 u这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。
  • TA的每日心情
    开心
    2023-7-25 23:58
  • 签到天数: 228 天

    [LV.7]常住居民III

    发表于 2015-10-31 16:59:46 | 显示全部楼层
    能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细0 j8 y) Y  j( {, y; B+ p* ~" r" H
      _3 [4 U+ E  V5 W
    安装python 2.7.6
    & Z. R$ M  N) E* \* D+ u1 Qwindows下要再安装python加载器,否则弹出一堆窗口很烦人% I: B6 B! X1 M( y! B
    https://bitbucket.org/vinay.saji ... nloads/launcher.msi
    7 B0 B9 q* X" y, w4 h安装lxml 3.3.5
    * n. b; p6 |/ k3 D9 A4 \安装BeautifulSoup 4.3.2
    " I$ [# ~1 r0 ]安装urllib3
    8 m! ]5 o) a( K) }& d  [" F/ Z1 U将wordlist.txt和以上两脚本文件放在同一目录下
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-4 04:39 , Processed in 0.029792 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表