掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sqihuan

[词典讨论] 朗文当代高阶英语词典 6版

[复制链接]

该用户从未签到

发表于 2014-7-28 20:57:55 | 显示全部楼层
朗文销量不逊于牛津吧,可能还要更大一点,为何要退出?

该用户从未签到

发表于 2014-7-30 12:50:26 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:04
8 n7 c5 Q. s, d0 Y成本的問題,所以朗文不出了。至於5年後朗文7的前景,也不樂觀。

. U1 D. ^$ _3 a% I; Z- e. X主力編輯已離開團隊, 所以朗文7的質素能否維持一來以往的水準, 甚或再有大更新,則未知了。希望不會好像 collins 那樣每況愈下就好了。

该用户从未签到

发表于 2014-7-30 12:52:45 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:07
4 P) X- q9 o8 y9 ~對文科生來說,學編程是很痛苦的。我猜你們現在弄編程的,大部份專業也是計算機。
$ K( ^3 G4 Z/ b# z# B9 T0 t
不清楚國內的教育情況。不過我很欣賞搞編程的人,能開發實用的程序,方便大眾,改善生活,增加工作效率。

该用户从未签到

发表于 2014-7-31 21:14:33 | 显示全部楼层
看着真心眼馋。。。有种把数据抓下来的冲动。。。{:5_199:}
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-31 21:43:07 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 3 h5 `: {! _6 V" N( Q
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    ( R0 [4 ]; Z* p0 h- i% z; O% v
    哈哈,支持支持
    5 H( a; _, s( @1 N0 _' N# {如果抓到数据了能否分析下和5th的具体差别?

    该用户从未签到

     楼主| 发表于 2014-7-31 22:26:10 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 * c- h) \& r7 Y, J& k  u+ k
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    5 R8 ]' P& _- h支持支持。大力支持大大。网络爬虫真的不会。。。。哎 只能伸手党了!

    该用户从未签到

    发表于 2014-7-31 22:35:54 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 $ V3 G: U  b: A8 c
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    ' _7 c3 l' U* B9 x( |
    = =装了python环境,还是不懂怎么抓

    该用户从未签到

    发表于 2014-8-3 09:25:37 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    ; H7 P  |: @/ P看着真心眼馋。。。有种把数据抓下来的冲动。。。

    0 F3 H( ]! r' R: B除了朗文6之外, 在去年還出了一個 collocations dictionary
    * u  o7 ?5 B% l% q! ?1 G此本字典同樣沒有光碟版, 只提供網上搜索。1 t4 i# _7 w& H2 ]4 K

    + v! {9 {- C8 g% i0 q不過能抓下來, 同樣是功德無量了。

    点评

    http://pdawiki.com/forum/thread-10783-1-1.html  发表于 2014-8-3 14:01

    该用户从未签到

    发表于 2014-8-3 18:51:18 | 显示全部楼层
    謝謝O大你提醒我啊!! 難怪腦海中一直覺得在掌上百科有 collocations 字典..但一直想不起來..
    8 C8 ]& y' v/ x7 Y  f6 }4 [4 z3 |2 FHugh大 真的了不起! 感謝!!!

    该用户从未签到

    发表于 2014-8-9 21:24:23 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 9 v: H) G( m$ o& L6 u
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    * K3 a. S+ K7 N" \9 ^& n稍微研究一下网站构造,朗文真是堪称环保的典范
    1 d: k3 u+ I8 X2 U4 ], }0 |查词的时候居然只返回词条内容那一小块HTML,一丁点垃圾代码都没有,甚至连一个多余的空格都没有,太赞勒; T7 C' b9 G% ^* p2 X
    这也意味着跑一遍单词表,把得到的数据用</>分隔一下,直接就是成品了6 y* N9 I# c; o1 x2 _  X# y
    ' i  `2 {) d" ~6 a# l- J, t) d
    不用抠数据,不用编辑,不用格式化,一切就是这么简单

    点评

    没那么简单,不信你试试。o(∩_∩)o  发表于 2014-8-9 21:31

    该用户从未签到

    发表于 2014-8-9 21:53:47 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-8-9 22:00 编辑
    : q" e+ c. T8 x5 R, h6 p2 I
    * ]3 j7 |) [# i+ ^看来O大已经动手了,卡在哪个环节,有啥困难说说看{:5_217:} * [3 l. t1 R3 Y/ Q# c+ T

    3 z4 \8 z7 h: J  E2 K登录型网站建议用requests库,它支持session,自动支持cookies,而且内部有个用urllib3实现的HTTP连接池,相当于像蚂蝗一样叮上就不松口,效率非常高
    . \# q$ |: I& Z  oLongman比较特别的是大量用FORM POST,不像一般网站都是GET+ Z1 Z$ h5 [+ U+ Q+ c' T2 \

    ( T+ g! v& P- p+ v9 `# G. o% }% ]7 \
    没那么简单,不信你试试。o(∩_∩)o  
    ; ?6 H  p" \0 U; s) m+ R! O

    7 ?  K0 q& u  [' i不要教唆我干坏事。。。( d9 ~6 |: d% N  y8 {8 u- W

    # |" N& N( [' Q, ^% N, d9 V我试了一个词条,原始HTML,原始CSS,未作任何编辑改动就已经达到如此效果:) `- ?" \8 t2 U  k2 l( z5 m

    2 x9 C+ G" }" D; q+ o% r  X

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-8-9 21:59:53 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    0 N( U8 ^+ q) u% d看来O大已经动手了,卡在哪个环节,有啥困难说说看 " [/ f3 u* b0 v4 }" K$ Z/ p

    : p) m+ g$ S+ T0 ]+ ~登录型网站建议用requests库,它支持sessi ...
      g2 K$ Q3 y. J- \' V# t
    {:5_227:}
    $ `# z. j6 `9 E3 u  V0 n) R" Y: g' T) [! q2 Q1 i" t, s
    卡在了第一步,对学习型词典无爱。
      c. C9 Z. b4 D- }) U* K# Q' J- t) }
    我只是大概觉得要获取完整的Headword List似乎不那么容易。
    5 c' e- P1 [' n+ w( L) w3 ~% g, V! G( G3 x" Y3 v0 t* V2 }7 g

    该用户从未签到

    发表于 2014-8-9 22:05:15 | 显示全部楼层
    Oeasy 发表于 2014-8-9 21:59 ( e, n0 T6 A4 p4 p
    卡在了第一步,对学习型词典无爱。+ a- G) V& J4 n& B$ P: K

    4 f+ J3 z2 v5 C) c9 L/ w我只是大概觉得要获取完整的Headword List似乎不那么 ...

    % j) E, \2 n8 X3 e: Vhttp://global.longmandictionarie ... key/ldoce6/%key%/1/' w, A. _# h- D* w1 G

    7 l" O! l7 w: g" G  \/ H) }每跑一次返回一个HTML片断,用这个正则即可搞到查询用key;用该片断的最后一个key和拼进上面的url即可获得下一片断,循环下去直到最后一个单词‘zzz’返回空<ul></ul>,结束。
    1. <li><a\s+data-alphakey="([^"]+)"\s*data-key="([^"]+)">
    复制代码

    该用户从未签到

    发表于 2014-8-9 22:12:17 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 22:05 5 d( V7 O* Y- C0 x
    http://global.longmandictionaries.com/dict_search/get_entry_chunk_for_alpha_key/ldoce6/%key%/1/4 L$ N( g- ]3 d) q1 u
      \# B5 Y. A7 v/ m: |5 i
    ...

    0 J" F8 v( Z/ `{:5_227:}6 Z0 m6 C$ G0 _+ p: k
    会者不难,想学就会。% C0 }: }/ ?( J7 H' s- Q3 p: q$ S) N7 t
    不过,累觉不爱。

    该用户从未签到

    发表于 2014-8-9 22:19:13 | 显示全部楼层
    {:5_217:}
    ( K+ \0 o& G3 m/ E" K8 p/ D+ d0 P. @" x- l# k' b: Z" N
    本人同样只研究代码,不抓数据,不做词典;对该词典感兴趣的同学可照此思路继续下去;打算做伸手党的就别等了,三五年之后或许有人会放出来
    1 v; x, K# H9 @* j- u累觉不爱~~~{:10_293:}

    该用户从未签到

    发表于 2014-8-10 17:21:02 | 显示全部楼层
    唯有等Hugh大哥做吧.. 我相信Hugh大哥這個朗文控是不會放棄朗文6的~~
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:52:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-24 12:29 $ R3 Z2 u! ~) N) f' O0 ~
    模拟登录不难,百度一大堆现成的代码,拷过来直接能用/ o4 t9 R( Z1 f; M% B4 i( Z
    session建起来就可以拿个大号针管抽血了
    7 _7 X2 S5 l4 M$ U; W( |0 s ...
    & W# w$ n/ \4 a8 ~7 }) S, x" B
    其实我抓取网页要不是用httrack(线程难控制)或teleport(数量限制).
    + t  K7 x$ n! V9 L* O+ T就是自己编一个C程序,system()curl下载,用正则表达式过滤链接(可惜Java或js难处理),curl可以post网页(有一个查询网页就是要post才能下),自定义heads,cookies.啥事都搞定.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:59:35 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53 ' X% I0 A/ ?  X# b: \7 n8 Q
    看来O大已经动手了,卡在哪个环节,有啥困难说说看 2 E% s% y. `) D* T9 b6 b
    8 r* R/ l& b/ J, D! ]9 K5 ^( a
    登录型网站建议用requests库,它支持sessi ...

    , F1 A% l# A6 c, ^% orequests库有没有C/C++ API?想试试看,libcurl参数多到我头晕,所以只能system()curl来下,不过好像速度有点慢(单线程)...
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:05:30 | 显示全部楼层
    我先用HttpAnalyzerStdV7抓GET和POST了
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:07:00 | 显示全部楼层
    我勒个去HttpAnalyzerStdV7崩溃还是用Wireshark吧
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:20:58 | 显示全部楼层
    我的天呀,全是POST.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:00 | 显示全部楼层
    POST /dict_search/get_entry_chunk_for_alpha_key/ldoce6/abdicate/0/ HTTP/1.1
    * ]+ f+ q9 I; [# X- ?% dHost: global.longmandictionaries.com
    ' ~* g; j) m! E: y/ GConnection: keep-alive; w4 f0 B& u# Y: C9 K  G
    Content-Length: 01 {; E1 t3 d) |; D/ s- q( i) K
    Accept: text/html, */*; q=0.013 f0 k; i* n! O: A# d  r
    Origin: http://global.longmandictionaries.com( b( O9 z$ n# I3 g- W
    X-Requested-With: XMLHttpRequest0 @; T2 Q* x  s9 i( s0 @+ Q$ o4 `
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0- R! m* T  S" {. {3 M! N4 m
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8. {8 M" f; k4 V$ Y& d0 X( c
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary5 N+ \! G: I0 N3 p( \
    Accept-Encoding: gzip,deflate,sdch
    " N+ [0 K4 r4 u& X6 g8 N% FAccept-Language: zh-CN,zh;q=0.8
    ) G! b& y& ~& G! hCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:53 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-9-7 09:24 编辑 9 _0 J* i6 B' E2 Y

    ) o$ H! H0 {4 BPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    / r) \) o/ ~0 J6 ?. N) Q3 [% _$ THost: global.longmandictionaries.com6 _+ `+ e4 a  D7 Y3 q
    Connection: keep-alive
    ; X# F! D7 S8 [* S. X, nContent-Length: 237 V- N7 q7 B' M; v8 h( A
    Accept: */*3 q- Q) E% P+ z7 i
    Origin: http://global.longmandictionaries.com1 x8 @* v! ?4 t& i' t; T2 d/ }
    X-Requested-With: XMLHttpRequest' q& F& v9 b0 M( f, b
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    8 z: U2 W* w3 l) s! zContent-Type: application/x-www-form-urlencoded; charset=UTF-8& H" p& V1 b. |+ O* s, w8 d" K
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    : c  w2 Z, N; i4 L0 S# D) XAccept-Encoding: gzip,deflate,sdch
    + G. M! D* ]: g; w9 vAccept-Language: zh-CN,zh;q=0.84 t! ?* U9 r; ^' b/ D
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    / v1 Q5 I4 S, F4 V' Ealpha_key=a_amp_w&name=
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:28:19 | 显示全部楼层
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.15 a2 Z! G& R7 e
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    % G3 ~0 C: V8 h4 iGET /res/audio/hwd/ame/2/abandon1.mp3 HTTP/1.1
    0 J3 I8 z' b5 D, k, T( SGET /res/audio/hwd/bre/7/abandon_v0205.mp3 HTTP/1.1
    " @+ E6 ~* \4 W  f" }# |- B终于有GET了,不过好像有点坑ame/2/abandon1.mp3和bre/7/abandon_v0205.mp3是什么规律
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:34:21 | 显示全部楼层
    abandon1,2实例:
    ( m/ s1 L8 b- }POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1% [0 ~+ \; `+ _
    Host: global.longmandictionaries.com
    0 `1 s: Z1 S- ?5 M* x3 w0 @Connection: keep-alive
    ! @6 F, h. W  v1 l' b. w5 x4 iContent-Length: 25
    ( t6 y  Z/ E$ Z% t# wAccept: */*7 W2 x* i* C9 ?2 ?) p% j6 q
    Origin: http://global.longmandictionaries.com
    ! n& m6 D( g+ q# Y' XX-Requested-With: XMLHttpRequest5 M6 U2 b. r) W1 V: j# }
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    ' ?9 Q! z2 k) l/ n  fContent-Type: application/x-www-form-urlencoded; charset=UTF-8* |/ u$ v5 n4 ], R8 `2 C
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary! Z  I6 B3 Q! D( E/ j: o
    Accept-Encoding: gzip,deflate,sdch
    2 U0 v1 m3 T5 c' N% p  ZAccept-Language: zh-CN,zh;q=0.8
    4 q+ w* T& V  m7 d8 S/ H! zCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......# n  ~/ ]0 n, a$ ^4 t" }; n; k
    alpha_key=abandon_1&name=
    5 ]9 `8 I. K7 X0 u5 X4 x
    " J' y+ Z" x) N3 X' i9 v, [0 E0 L/ u& ]. u2 l! w& o
    POST /dict_search/other_words/ldoce6/ HTTP/1.1
    ) y4 c' I) A$ ~: X& pHost: global.longmandictionaries.com$ u& w! O& W" M7 T5 e
    Connection: keep-alive! W8 m& X; n+ o; X
    Content-Length: 196 g# Q# x, }7 ?. Z7 ?3 p
    Accept: text/html, */*; q=0.014 ]4 ~* @. D# |! M/ P% R- V& p; g& ~
    Origin: http://global.longmandictionaries.com3 R8 K% I2 v9 d: K3 V* F
    X-Requested-With: XMLHttpRequest
    . `5 m2 }! o% H+ xUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    3 z+ t7 B- z. wContent-Type: application/x-www-form-urlencoded; charset=UTF-87 c& G+ h$ ~0 s3 t
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary( A) l% R& k1 M5 d- z1 e# |2 N
    Accept-Encoding: gzip,deflate,sdch# p. }" |: e; a4 A7 F) T: ]) Y: |
    Accept-Language: zh-CN,zh;q=0.8
    , u) D3 A$ W% O: d6 KCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    2 N, J8 k4 X# ]entry_key=abandon_1! f, Q7 D2 {3 L/ J  d, x9 A" `

    4 Q3 N3 i& O7 B6 w/ N' I- L3 x2 O5 B1 B( y  V# V
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.17 p' X8 G  Y' L2 H: m+ o1 q5 Y
    Host: global.longmandictionaries.com
    & v, `: C+ R/ OConnection: keep-alive
    . _5 t/ W7 D* r$ \" dContent-Length: 25
    * L+ F( i; P+ y) GAccept: */*
    , ^& _9 Z) o; m4 u% U) ZOrigin: http://global.longmandictionaries.com9 B! g% X2 c3 `  r. b- q
    X-Requested-With: XMLHttpRequest2 g4 V- {, R( a! I) v# q
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0  ~+ L" Q2 r& Q. B
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8
    . o+ a- a! \" A0 t  |Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    * L  L$ P+ Y5 Z8 z& t% `% o- tAccept-Encoding: gzip,deflate,sdch
    " `8 }7 J& C  R% X9 [  L, _3 L8 VAccept-Language: zh-CN,zh;q=0.8+ ~# M' C( M5 Q7 P9 i
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    7 |2 |6 o  E  }3 Ualpha_key=abandon_2&name=
    " T3 U  x" t7 |4 I! P$ h. c  V+ B8 |5 c! j( Q' L; _: Y; w$ p' s- U; \

    8 c$ p& G. d: N9 d! D2 e; J" qPOST /dict_search/other_words/ldoce6/ HTTP/1.1
    ' ?; K7 V* N1 S% g. [Host: global.longmandictionaries.com8 b6 I0 W7 M' ?6 @
    Connection: keep-alive4 X* ?& |" c7 \! t0 s. K
    Content-Length: 199 O% O9 c/ N6 s' Q
    Accept: text/html, */*; q=0.010 i6 P' E5 z* k# h
    Origin: http://global.longmandictionaries.com" k& q4 c7 n4 X! g+ l4 z: \
    X-Requested-With: XMLHttpRequest
    + {- M4 y" Y& z5 o/ w. d) ^User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    4 u; k: d9 t4 \Content-Type: application/x-www-form-urlencoded; charset=UTF-8( N. W% ?3 I1 J. E! ?* g* {1 ~. p
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    ( J5 R3 N+ W$ g. hAccept-Encoding: gzip,deflate,sdch
    5 X+ @2 x( P  R' CAccept-Language: zh-CN,zh;q=0.8
    $ A! m% `: ~% B  e! n) KCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    # p8 _4 g4 y& K* i- Q  ?0 Nentry_key=abandon_2! f: _' r1 R; W) a3 ~' j+ B+ E, L
    5 w  N1 e2 x3 g$ E
      |4 P8 X+ b; s
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1
    % O6 P8 b/ @! k1 K' \" CGET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1$ `0 ]' ?+ F7 r/ F" x- ^9 M, r
    GET /popup/supp/ldoce6/collocations/abandon_2 HTTP/1.1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-14 05:45 , Processed in 0.026004 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表