掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sqihuan

[词典讨论] 朗文当代高阶英语词典 6版

[复制链接]

该用户从未签到

发表于 2014-7-28 20:57:55 | 显示全部楼层
朗文销量不逊于牛津吧,可能还要更大一点,为何要退出?

该用户从未签到

发表于 2014-7-30 12:50:26 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:04
9 X! J& K( M3 A6 x, l9 I1 O成本的問題,所以朗文不出了。至於5年後朗文7的前景,也不樂觀。

' {3 o( z- L/ d$ A3 e  `主力編輯已離開團隊, 所以朗文7的質素能否維持一來以往的水準, 甚或再有大更新,則未知了。希望不會好像 collins 那樣每況愈下就好了。

该用户从未签到

发表于 2014-7-30 12:52:45 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:07
! d  d# V3 u: n+ O$ D對文科生來說,學編程是很痛苦的。我猜你們現在弄編程的,大部份專業也是計算機。

) ?% Z2 E& V/ |$ ]+ ?/ Z, F+ ~8 @不清楚國內的教育情況。不過我很欣賞搞編程的人,能開發實用的程序,方便大眾,改善生活,增加工作效率。

该用户从未签到

发表于 2014-7-31 21:14:33 | 显示全部楼层
看着真心眼馋。。。有种把数据抓下来的冲动。。。{:5_199:}
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-31 21:43:07 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    ( P5 _+ z$ o) k7 O% |' f6 B* V5 f5 w看着真心眼馋。。。有种把数据抓下来的冲动。。。

    8 I0 K% x% M$ |8 }, G& U( q哈哈,支持支持
    : n7 L4 K5 H" _- M3 a如果抓到数据了能否分析下和5th的具体差别?

    该用户从未签到

     楼主| 发表于 2014-7-31 22:26:10 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    6 u/ C6 A- g- C% U& Q( l# d0 L$ S" D看着真心眼馋。。。有种把数据抓下来的冲动。。。
    2 W+ M! c! J& n# g! _) t
    支持支持。大力支持大大。网络爬虫真的不会。。。。哎 只能伸手党了!

    该用户从未签到

    发表于 2014-7-31 22:35:54 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 0 c' {. |% O. S# S4 L, {" R: E4 p% t
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    . O! w6 j5 b) Q8 v. F, @
    = =装了python环境,还是不懂怎么抓

    该用户从未签到

    发表于 2014-8-3 09:25:37 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    1 e2 H) F" [7 C& N看着真心眼馋。。。有种把数据抓下来的冲动。。。
    ; w: c" P& j$ }) P
    除了朗文6之外, 在去年還出了一個 collocations dictionary
    9 c7 C* u9 E. s' S+ D此本字典同樣沒有光碟版, 只提供網上搜索。/ c7 @/ O' q9 {! X/ f
    ; p$ F! V' K6 u, k& h
    不過能抓下來, 同樣是功德無量了。

    点评

    http://pdawiki.com/forum/thread-10783-1-1.html  发表于 2014-8-3 14:01

    该用户从未签到

    发表于 2014-8-3 18:51:18 | 显示全部楼层
    謝謝O大你提醒我啊!! 難怪腦海中一直覺得在掌上百科有 collocations 字典..但一直想不起來..
    ; a  {$ _  j7 }4 m* H9 cHugh大 真的了不起! 感謝!!!

    该用户从未签到

    发表于 2014-8-9 21:24:23 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 2 s6 }; u& D# k9 @3 T) H0 j
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    7 N7 u7 d$ d+ P稍微研究一下网站构造,朗文真是堪称环保的典范6 V& U; g( _$ P/ s4 G4 L* [+ t
    查词的时候居然只返回词条内容那一小块HTML,一丁点垃圾代码都没有,甚至连一个多余的空格都没有,太赞勒0 ~" A8 _. w/ k
    这也意味着跑一遍单词表,把得到的数据用</>分隔一下,直接就是成品了( ]% w$ Q+ q& }! u) {# a
    1 y/ ?1 d( j$ b0 w- }! X
    不用抠数据,不用编辑,不用格式化,一切就是这么简单

    点评

    没那么简单,不信你试试。o(∩_∩)o  发表于 2014-8-9 21:31

    该用户从未签到

    发表于 2014-8-9 21:53:47 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-8-9 22:00 编辑
    # {; D( B5 L* z  D  ~. L  K8 U7 `3 C
      A# m# j9 `8 g/ v, i看来O大已经动手了,卡在哪个环节,有啥困难说说看{:5_217:}
    $ C: F4 `' A$ U- R3 \# g7 O4 e
    登录型网站建议用requests库,它支持session,自动支持cookies,而且内部有个用urllib3实现的HTTP连接池,相当于像蚂蝗一样叮上就不松口,效率非常高
    ( A8 S% {* }2 V8 F1 u' kLongman比较特别的是大量用FORM POST,不像一般网站都是GET0 ~& ^" r# S% G4 M
    : X$ q2 }, o- x6 X0 W
    没那么简单,不信你试试。o(∩_∩)o  

    & u4 x* `" ?! n+ s) s3 |- h, B* n6 n( K
    不要教唆我干坏事。。。
    7 G) D5 I2 p4 p5 `8 R
      c& {1 M- ^& {2 T3 F7 ~& ]5 t我试了一个词条,原始HTML,原始CSS,未作任何编辑改动就已经达到如此效果:: \0 S. W* X! S( ?, \2 l" c$ M

    ; m1 V; T3 e5 E4 _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-8-9 21:59:53 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    / d/ X% D9 l4 H, D" r$ j看来O大已经动手了,卡在哪个环节,有啥困难说说看 . @9 [3 [# V, ~! R
    ! t5 _: M" n6 @! R( Q8 B6 R4 o1 t
    登录型网站建议用requests库,它支持sessi ...
    ' s- z7 G+ ^0 e7 r4 Z+ Z1 B
    {:5_227:}
    2 B2 m9 R' C# T: l/ C
    9 J4 p, J$ B7 o卡在了第一步,对学习型词典无爱。3 b9 `8 s) m! F  w4 J  H  O9 J
    " l) S2 [7 ^, X8 H7 C3 ^0 i
    我只是大概觉得要获取完整的Headword List似乎不那么容易。
    ! S) X! U, w' _" w% c: `9 p% @8 y& ^( _5 ]( C; A. V

    该用户从未签到

    发表于 2014-8-9 22:05:15 | 显示全部楼层
    Oeasy 发表于 2014-8-9 21:59 ; P0 R5 \% a- c9 R
    卡在了第一步,对学习型词典无爱。$ }$ m/ s0 Q1 p; L1 w
    & v2 Z5 \$ A9 C: N0 h0 W3 U
    我只是大概觉得要获取完整的Headword List似乎不那么 ...

    ' {" @( J6 V$ q4 ^) X& }/ l0 Y4 Ghttp://global.longmandictionarie ... key/ldoce6/%key%/1/* o7 W  B7 @3 Z( b0 {; |

    , |( m+ q7 ^- e2 r每跑一次返回一个HTML片断,用这个正则即可搞到查询用key;用该片断的最后一个key和拼进上面的url即可获得下一片断,循环下去直到最后一个单词‘zzz’返回空<ul></ul>,结束。
    1. <li><a\s+data-alphakey="([^"]+)"\s*data-key="([^"]+)">
    复制代码

    该用户从未签到

    发表于 2014-8-9 22:12:17 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 22:05
    % o; X& j) X3 I# J7 b$ x* Lhttp://global.longmandictionaries.com/dict_search/get_entry_chunk_for_alpha_key/ldoce6/%key%/1/9 B( g" M: Y/ ?& S1 U. _6 {* ?4 {

    * V) i# G( \* e0 U4 i  L ...

    % f4 e' u. Q! T$ |+ j! e# ^, _{:5_227:}& v0 H% }8 @. l- {: i( M2 |
    会者不难,想学就会。
    * `9 X& b7 e% g: H不过,累觉不爱。

    该用户从未签到

    发表于 2014-8-9 22:19:13 | 显示全部楼层
    {:5_217:}& J8 R6 B0 _1 i/ E& M3 w  w: c6 ]
    + D: L$ s- Y& s
    本人同样只研究代码,不抓数据,不做词典;对该词典感兴趣的同学可照此思路继续下去;打算做伸手党的就别等了,三五年之后或许有人会放出来
    ! n+ p9 \# U7 c$ r7 @  B5 [, [累觉不爱~~~{:10_293:}

    该用户从未签到

    发表于 2014-8-10 17:21:02 | 显示全部楼层
    唯有等Hugh大哥做吧.. 我相信Hugh大哥這個朗文控是不會放棄朗文6的~~
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:52:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-24 12:29
    ; i; i; }. v, \- R  H0 u模拟登录不难,百度一大堆现成的代码,拷过来直接能用) |+ X+ A& N0 o8 t7 c. w$ |
    session建起来就可以拿个大号针管抽血了
    : c$ p! _  A; T' v3 ^ ...
    7 W- s& A7 j7 F
    其实我抓取网页要不是用httrack(线程难控制)或teleport(数量限制).
    2 q" T* p; p/ `1 V  l# G" X就是自己编一个C程序,system()curl下载,用正则表达式过滤链接(可惜Java或js难处理),curl可以post网页(有一个查询网页就是要post才能下),自定义heads,cookies.啥事都搞定.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:59:35 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    ( Y( i9 ~' g+ E看来O大已经动手了,卡在哪个环节,有啥困难说说看 . o: o3 T1 _  x8 g/ n

    & s# o8 _9 v5 g3 r% h) k, b' n登录型网站建议用requests库,它支持sessi ...
    8 i" H5 }& t  i, z9 q7 w
    requests库有没有C/C++ API?想试试看,libcurl参数多到我头晕,所以只能system()curl来下,不过好像速度有点慢(单线程)...
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:05:30 | 显示全部楼层
    我先用HttpAnalyzerStdV7抓GET和POST了
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:07:00 | 显示全部楼层
    我勒个去HttpAnalyzerStdV7崩溃还是用Wireshark吧
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:20:58 | 显示全部楼层
    我的天呀,全是POST.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:00 | 显示全部楼层
    POST /dict_search/get_entry_chunk_for_alpha_key/ldoce6/abdicate/0/ HTTP/1.1* z- V- z% ^* |8 o8 h* N" a$ J
    Host: global.longmandictionaries.com
    $ w2 y- z! ]  p5 f% t: v8 bConnection: keep-alive
    3 x9 c3 D# }: D# GContent-Length: 0& }/ N% c' ^" _. V8 P( S
    Accept: text/html, */*; q=0.01: k9 d0 p: F, ^5 x, ^
    Origin: http://global.longmandictionaries.com8 c' l; F$ x5 G# N$ \
    X-Requested-With: XMLHttpRequest
    " T( a) S/ B$ _5 _( L6 @User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    3 S6 H! P$ D% U- _: Y: R7 SContent-Type: application/x-www-form-urlencoded; charset=UTF-8
      K3 M; X4 @4 W$ l5 b; rReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    # r  Q" T. W1 ^0 \0 P  KAccept-Encoding: gzip,deflate,sdch
    6 j$ l& G/ I8 t3 n& NAccept-Language: zh-CN,zh;q=0.80 Z$ V/ s% Y- _
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:53 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-9-7 09:24 编辑
    ( w1 b6 z5 k# G/ z  z/ K( A- P4 e0 Q0 L1 g. t
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.13 c. O3 u0 u& v; `0 a  ]# `" G
    Host: global.longmandictionaries.com
    ! X# i4 {# f( oConnection: keep-alive* H1 u# M# v  }7 z! z6 p  n# F
    Content-Length: 23
    , B4 P- P+ o% {  E9 `/ ?' CAccept: */*( j' L3 d0 I  o  U. Q$ {/ X( B
    Origin: http://global.longmandictionaries.com
    3 P" o( m1 f7 Y1 p8 dX-Requested-With: XMLHttpRequest
    1 Q5 D2 x4 Z9 T5 b. @User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    # O  R5 s: R/ w: dContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    : j3 g7 u4 N  R$ r8 H5 a6 ]Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    * E" V% @1 G8 e" bAccept-Encoding: gzip,deflate,sdch# s# J& z' {& H* o/ x# |
    Accept-Language: zh-CN,zh;q=0.8
    . |6 }) ?7 K$ V  }+ ~% g( ]1 x3 r) JCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......% H6 K2 M. R: C) E% }
    alpha_key=a_amp_w&name=
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:28:19 | 显示全部楼层
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1
    ! ?( O# t( n+ P6 N* m! n0 U3 wGET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1  r6 Y$ N5 m2 a3 K# w  f
    GET /res/audio/hwd/ame/2/abandon1.mp3 HTTP/1.13 E4 a9 }  `5 p8 _& O/ f
    GET /res/audio/hwd/bre/7/abandon_v0205.mp3 HTTP/1.1  D. I2 K; g. T; _/ B% R" G
    终于有GET了,不过好像有点坑ame/2/abandon1.mp3和bre/7/abandon_v0205.mp3是什么规律
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:34:21 | 显示全部楼层
    abandon1,2实例:
    1 C; j" B( a& t+ k5 n# vPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    ) P9 R, V3 M) i$ J2 {% m" d# vHost: global.longmandictionaries.com9 F) ^" l2 D, L# E/ l
    Connection: keep-alive
    / m1 k5 {$ I  E* `Content-Length: 25
    ; h* X0 Q7 y5 u0 |+ o  bAccept: */*
    ) m! _. f+ x4 b! n: [" vOrigin: http://global.longmandictionaries.com
    $ o3 \$ M. o7 L8 w# vX-Requested-With: XMLHttpRequest( ?* C* X3 O# Y% f1 V$ _
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    * i8 o. g$ X# O4 b* FContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    1 F5 ?2 e, w9 D6 z6 u/ @Referer: http://global.longmandictionaries.com/ldoce6/dictionary" E, W  D; D) \+ K( J4 B
    Accept-Encoding: gzip,deflate,sdch9 d# R* ^9 |* W5 o
    Accept-Language: zh-CN,zh;q=0.82 @6 g- g5 {8 Q- Z
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......  A+ G* n- H. ~) D: S
    alpha_key=abandon_1&name=) c1 I5 I! R) V( U

    . G6 R" p2 I  H* |  Q/ W% O! O: t( o
    POST /dict_search/other_words/ldoce6/ HTTP/1.1
    9 {  D* {' S1 B/ ^7 x- lHost: global.longmandictionaries.com
    9 s7 O4 V6 Z* o- L( r2 M. i3 q0 {Connection: keep-alive
    2 s' I; `; q: [7 w# @& k2 T" PContent-Length: 198 |7 g6 L& A9 h2 ?( r
    Accept: text/html, */*; q=0.01: {: Q; n: T6 k6 `6 u  J* o
    Origin: http://global.longmandictionaries.com
    8 Y: \9 y' x8 x7 `5 cX-Requested-With: XMLHttpRequest
    , D; V* s/ `' CUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0& D' C7 h; c, J0 f. X( Y5 o
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8' h3 u" n1 b% D4 i2 M
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary# J% b' \. A9 u! m
    Accept-Encoding: gzip,deflate,sdch
    : p; L- O4 v- }Accept-Language: zh-CN,zh;q=0.8. l# A2 w+ L, o) d2 g+ O
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......8 l* N4 j! Q- d7 p9 |( }0 m
    entry_key=abandon_1
    & E: i( S3 S0 T1 l8 Z) v  x# M
    / J8 D& Q$ x5 t8 z5 v
    ' s; T0 B6 n/ J' N  X- O  \$ qPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1- u% w8 V% o. O
    Host: global.longmandictionaries.com
    - I1 N9 H/ U. KConnection: keep-alive
    0 i1 X7 L7 C% j* N7 A9 ]! NContent-Length: 25
    3 r' v, `, ^( v! O9 E5 L; ^Accept: */*
    & H, y' W; _/ \Origin: http://global.longmandictionaries.com% m0 }0 n! a6 ?( }5 a: {
    X-Requested-With: XMLHttpRequest, U6 Y4 S0 {6 O
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    , g: D0 @1 a. [( jContent-Type: application/x-www-form-urlencoded; charset=UTF-8( W5 q0 h& @5 l
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary/ s% s8 L5 J. ]/ M- ^' ^' k
    Accept-Encoding: gzip,deflate,sdch
    8 o% @5 l$ G; D5 z1 h! _5 CAccept-Language: zh-CN,zh;q=0.87 f$ l$ R  I0 E# d- H
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......( [7 V" x0 K) `* D3 b
    alpha_key=abandon_2&name=7 g4 s6 _/ a8 o4 T, S5 R/ L/ l

    : `1 t. K0 s4 B* N7 A/ D9 n/ Q" Y9 \" P  {; N
    POST /dict_search/other_words/ldoce6/ HTTP/1.1: v  e* g/ I( X: z5 [4 y+ Y# O
    Host: global.longmandictionaries.com% [$ g5 t+ L; l9 L# M; j0 y# H6 `1 \
    Connection: keep-alive
    % T2 _6 o8 J6 R5 f2 U! s: cContent-Length: 19
    ; v0 F2 G2 x3 x; r6 u4 A: ^Accept: text/html, */*; q=0.012 B4 `% \  L2 R- D: k
    Origin: http://global.longmandictionaries.com. Z* T$ B, X# S/ z
    X-Requested-With: XMLHttpRequest
    2 {# H; B1 v. v" }User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    # y! [& R5 k' X" F7 B, L% vContent-Type: application/x-www-form-urlencoded; charset=UTF-89 q. l+ t0 s; C; a
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    + ^  l+ f: h4 S: m  D/ `0 bAccept-Encoding: gzip,deflate,sdch
    * c1 z- q7 A$ r+ N+ ~Accept-Language: zh-CN,zh;q=0.8  _6 {5 |) Q6 |# m& p. P' p0 c3 y
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......$ b; h+ w, d; O7 @
    entry_key=abandon_2
    ) A% m1 {! ?" ]8 G+ E' \9 m- w" ^1 O! T( P

    ! e% R6 \) i+ u( u* q2 m& DGET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1
    , q; }" C$ T9 N9 B  }% T* t6 TGET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    2 m3 C" {, ?1 i1 q( Z1 NGET /popup/supp/ldoce6/collocations/abandon_2 HTTP/1.1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-5 21:52 , Processed in 0.023765 second(s), 17 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表