掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1424|回复: 26

[悬赏] 求助 urban dictionary网站数据重新抓取 [python]

[复制链接]
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

    发表于 2018-4-18 10:22:43 | 显示全部楼层 |阅读模式
    500
    本帖最后由 garypang 于 2018-4-18 10:48 编辑 9 S1 |' r$ g: |1 ?
    0 S& [  ]; w. K
    原帖 https://www.pdawiki.com/forum/fo ... hread&tid=13941% B. n* l3 U9 S
    * K6 l/ r  @/ Z) F% l0 k
    作者@imfirefly 附带了抓取、排版、格式化成MDICT(Html)格式的工具,奈何本人完全不会python,暂时也没时间自学,求助python大神帮重新抓取最新数据,或者详细教我怎么使用这个工具傻瓜式抓取(本人python零菜鸟,会Html,CSS,JS,mdx词典修改打包等),

    最佳答案

    查看完整内容

    终于完成了,共1.7G,压缩后279M,见附件
  • TA的每日心情
    奋斗
    2018-7-12 01:46
  • 签到天数: 109 天

    [LV.6]常住居民II

    发表于 2018-4-18 11:15:38 | 显示全部楼层
    我倒是一直用的 gd/git 上维护的在线版 py 脚本8 v$ a# W# h# o- x& T( F

    点评

    谢谢  发表于 2018-4-19 19:40

    评分

    3

    查看全部评分

  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-18 10:22:44 | 显示全部楼层
    本帖最后由 hooliganstreet 于 2018-6-1 17:30 编辑 * K5 J/ T) }  \* E3 w- c; W

    ( [) M4 A/ z8 J) Q0 s; Q2 d终于完成了,共1.7G,压缩后279M,见附件2 J$ L7 J  N2 p3 D, ~8 d

    / M$ y% x8 |( C0 ~9 V: ?  n- f  F" t* m( U( I% Z
    " i5 H+ `4 g7 e# ^

    & Y( o* c6 a9 D" f( w. q. d3 B' F& f: {3 i/ v0 f

    6 g: T. u) z- ?% `: A' B& n9 D. j2 e! o6 O. V- t2 V' r( @
    ) `/ f6 u8 [% d  T, I
    ' x5 j& `# {0 c' T6 A3 i
    - w+ j4 N/ A5 e  P& R: j

    ; h( u( z* e% o. d
    - Q  W4 F1 j/ F: Z7 y: z$ d1 M0 t! n; b3 s) m8 ]. `/ g

    / @" Y5 C# }/ m9 g$ `% X  V' |% M- S) \8 x; f6 \" I  K1 ~4 }9 w
    ( }6 ^% f# @) K2 `( I1 K& {/ l

      e4 v- S1 j3 G: j+ F1 U* y0 g6 w4 [

    8 C: J0 @! i, E) {6 b2 O* l6 Q3 j( T" S" l2 Q: O9 G7 U6 X. H

    * {  h# g! `+ }1 J6 m3 k
    , Y, L3 j9 A. y2 R3 x1 d/ W! _* I& e2 S4 }
      M! k5 N% j; A3 B" L- |- ?4 f) k
      `9 T& K* B7 Q+ _1 @7 f$ M4 S
    # k( `8 p& ^. s/ N8 M5 W
    ( Q- S- H# c5 F4 I, l, b
    ' G4 Y& T3 f7 o% i) N* \
    " ]# n* I7 J: J5 Q/ s: j% F

    ) _/ |5 @  k) o
    9 z% f- u$ a! S& M& c. d
    # O. i& k% U+ T$ j2 C

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    4

    查看全部评分

  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-19 09:34:13 | 显示全部楼层
    稍安勿躁,正在抓取
    ! M. u+ K* c: e' ^2 H8 P
    ' y; l/ V) x0 D* }9 f
    7 h6 H4 Q/ S: N+ y3 s9 X我做到第4步就传上来,剩下的就交给你了2 a3 I( X5 y& ~) j* x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-4-19 10:56:33 来自手机 | 显示全部楼层
    hooliganstreet 发表于 2018-4-19 09:344 B9 y3 y1 s+ c5 W, b
    稍安勿躁,正在抓取/ ~& b- O" ~& a) e6 J4 q; Y" n* f

    7 ^' t2 w) ~- Z; z" i2 G* h9 q
    9 U4 D# \# V- d! {0 L( H* L
    ' S  I% O6 s( ]3 T
    厉害了 哈哈 感谢(❁´ω`❁)!
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-19 16:02:01 | 显示全部楼层
    garypang 发表于 2018-4-19 10:56& q9 G1 F9 O3 C! P8 O
    厉害了 哈哈 感谢(❁´ω`❁)!

    : y) Z$ Q( ^* i3 K6 D8 w" y第1步已经完成,大约用了半个小时;正在执行第2步,已经用了6个小时了,但远远没有完成,而且错误挺多,按照这个速度算了一下,估计第2步至少需要5天,所以慢慢等待...
    $ `% _% X) H% @. x) @# w+ E! L8 K3 o' b3 E% ~& B

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-4-19 16:55:43 | 显示全部楼层
    hooliganstreet 发表于 2018-4-19 16:02* u& E  `" S: w" g  q+ I
    第1步已经完成,大约用了半个小时;正在执行第2步,已经用了6个小时了,但远远没有完成,而且错误挺多, ...

    5 ~6 t+ V& u3 M$ I) l+ h辛苦了! 如果太耗时, 也可以教我具体怎么弄,在我电脑上抓取,
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-19 17:04:25 | 显示全部楼层
    本帖最后由 hooliganstreet 于 2018-4-19 17:05 编辑
    : v& ^8 w0 v9 [' S! r
    garypang 发表于 2018-4-19 16:55
    " w1 B2 Z/ ~' y. K/ M7 l1 ?辛苦了! 如果太耗时, 也可以教我具体怎么弄,在我电脑上抓取,
    ! \6 B  v; P; s) b1 P
    * K9 q$ N' q' c0 @
    我觉得应该是网络的原因,慢慢来。如果想自己弄,按照说明,首先需要下载Python 3.4.3(不同的版本可能会有问题),可以参考这儿& i6 R4 E% W9 d5 F
    然后在命令行执行- n7 A+ `/ h, k5 ?- u
    1. pip install requests
    复制代码
    1. pip install BeautifulSoup
    复制代码

    / E4 n# b& V/ P然后按照说明执行: n9 L- X3 }! K( |: u% k. `  ~
    1. python UD_wordlists_gen.py
    复制代码
    1. python UD_make_mdx.py
    复制代码
    1. mergeAllMDXs.bat
    复制代码
      ^% r# T2 _. A
    最后就是运行MdxBuilder了

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2018-5-10 12:58
  • 签到天数: 53 天

    [LV.5]常住居民I

    发表于 2018-4-22 19:24:51 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-4-22 19:42:58 | 显示全部楼层
    冰上走的小猫猫 发表于 2018-4-22 19:24' M# H9 g% r* `$ x& R! s
    我觉得urban 用goldendict的直练功能比较好。0 R/ H0 s' o/ ?$ b. C2 a4 \9 A
    urban数据变更性太大,不适合抓取使用。 ...

    " I0 Y& w) {' f  C  R国内访问速度堪忧阿,一年抓取一次还是挺方便的呢,
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-23 10:26:14 | 显示全部楼层
    garypang 发表于 2018-4-22 19:42
    ) n9 g9 q, z' B5 T+ o6 b/ @$ o0 E0 K国内访问速度堪忧阿,一年抓取一次还是挺方便的呢,

    8 g9 K) }9 y, \访问还是有问题,4天了还没完成,而且访问失败的占80%以上4 b* x& ^+ q4 L: P8 h
    ; j5 W  r. ?9 y; ^+ o% h. |
    $ h. v  a8 p: g0 P$ G
    左边是失败的,右边是所有的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-4-23 10:48:34 | 显示全部楼层
    hooliganstreet 发表于 2018-4-23 10:26
    , `7 v5 {  `4 E9 o6 K9 B0 A访问还是有问题,4天了还没完成,而且访问失败的占80%以上
    2 {1 }9 k4 `; k" e, J+ Q
    感谢及时更新进度,实在辛苦了! 失败的大概原因你那边能知晓吗,是网络问题还是urban网站更新了导致抓取程序不能完全匹配造成的呢,% u, l+ t8 |  d: q" p
    + ~& ~; B- [% d& g+ |
    谢谢!
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-23 10:58:49 | 显示全部楼层
    garypang 发表于 2018-4-23 10:48  K# S# D: \' S. G' P% ]: D' C# M/ x
    感谢及时更新进度,实在辛苦了! 失败的大概原因你那边能知晓吗,是网络问题还是urban网站更新了导致抓取程 ...
    0 U7 H6 d# o3 m+ c' _
    可能是同时请求的太多了
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-4-23 11:05:54 | 显示全部楼层
    hooliganstreet 发表于 2018-4-23 10:584 I; S8 i8 p  k) P4 `7 S
    可能是同时请求的太多了

    8 `* |% F" O; b) b好的,看来还是urban网站做了限制,先全部抓取完成再看看有没其他解决方案,
    3 L, t3 E7 }! b7 P6 U& e: y) ?+ N# a# |+ |% a$ _4 u8 d
    谢谢!
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-4-23 11:52:58 | 显示全部楼层
    garypang 发表于 2018-4-23 11:05
    % K2 Z$ f9 X+ y# j- h2 s好的,看来还是urban网站做了限制,先全部抓取完成再看看有没其他解决方案,1 F, U3 [' C: E4 m! [3 d0 M

    , R$ T3 ^2 h, k9 t谢谢! ...
    " `* r, V5 p' U
    只好多爬几次了
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-5-3 11:35:18 | 显示全部楼层
    hooliganstreet 发表于 2018-4-23 11:526 C6 T* Y( u+ F. Z+ X5 h( f
    只好多爬几次了
    8 ]3 V; }' A4 F5 Y3 ]
    不知道楼主进度如何了,哈哈,
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-5-3 13:36:50 | 显示全部楼层
    garypang 发表于 2018-5-3 11:35
    , K. J! j4 _5 s: d不知道楼主进度如何了,哈哈,

    4 A' j: t. t: u, L4 t5 u; g试了好几次了,觉得网站可能对请求数做了限制,因此改为单线程继续抓取,已经好几天了。

    评分

    1

    查看全部评分

  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-5-3 13:38:59 | 显示全部楼层
    上午c盘没空间了,换了个盘,继续。已经抓取535M,比我用的是300多M,看了网站又更新了不少
    7 g; B+ m2 E% E. P- q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-5-3 13:47:29 | 显示全部楼层
    hooliganstreet 发表于 2018-5-3 13:38
    $ V, Q2 Q! x) F上午c盘没空间了,换了个盘,继续。已经抓取535M,比我用的是300多M,看了网站又更新了不少
    ) n5 ?1 r% H% h1 l! V: q' g% ]: a ...
    9 u8 W6 [+ ~8 r8 M* w+ {$ O4 y7 ?, i7 C
    哈哈,辛苦了,看来是快要成了~
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-5-3 15:15:34 | 显示全部楼层
    garypang 发表于 2018-5-3 13:47
    % r  S# J1 H  E2 K& ?" ]哈哈,辛苦了,看来是快要成了~
    ) H) H2 H( n" |$ m
    估计还早,我觉得一半都不到,估计至少需要半个月
  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-5-15 10:31:48 | 显示全部楼层
    说明一下进度:已经抓取了1.03G的数据,估计还有1/3的数据没有抓取完成,最后的数据估计至少有1.5G左右。时间的话,我估计至少还需要5天以上
    ! [$ ?  v9 s9 n/ c. d

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-5-15 10:38:33 | 显示全部楼层
    hooliganstreet 发表于 2018-5-15 10:31
    : P2 r' P; W( Z6 S$ C说明一下进度:已经抓取了1.03G的数据,估计还有1/3的数据没有抓取完成,最后的数据估计至少有1.5G左右。时 ...

    ) }& P, b- a" s" p+ x( x5 }/ y. h7 g哈哈,辛苦啦! 不急,我目前暂时用在线版用着也还不错,https://www.pdawiki.com/forum/fo ... hread&tid=26863
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-6-1 17:34:21 | 显示全部楼层
    hooliganstreet 发表于 2018-6-1 17:28
    ' [# D: d, Z0 X4 B8 E# o  M# u0 B终于完成了,共1.7G,压缩后279M,见附件

    & j+ [' q, f2 I# Y; r: J- n感谢!!!,付出这么多时间和精力,实在辛苦了,迫不及待试用先!
  • TA的每日心情
    慵懒
    2018-8-25 12:29
  • 签到天数: 91 天

    [LV.6]常住居民II

     楼主| 发表于 2018-6-1 19:40:11 | 显示全部楼层
    本帖最后由 garypang 于 2018-6-1 20:09 编辑 ( c7 @, c2 Q; x6 e, j
    hooliganstreet 发表于 2018-4-18 10:22
    ; y0 U& @% W, W1 ~. }" ]终于完成了,共1.7G,压缩后279M,见附件
    7 [- W, C6 v6 D+ k% \4 @  I

    ) D" f! [/ S, o/ X$ `4 E$ y4 X
    3 {, w7 S) E$ O6 i初步测试了下, 存在少量词缺失,比如 adorbs, giant : X" F9 I1 |$ z1 ^* N$ U" x

    ) j  U" |# t5 |) r( \; v/ R  已打包排版好,* D" v  X' P/ o! L
    您去资源区发帖分享给大家哈,
    6 \( z2 \* f0 Q' r
    * i& Z; F; w9 ~链接: https://pan.baidu.com/s/1e6yw2gOpcA137q7TRiqa0Q 密码: gang: u& O6 x! {- w5 o  ]. e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有帐号?免费注册

    x

    评分

    1

    查看全部评分

  • TA的每日心情
    无聊
    2020-3-12 11:34
  • 签到天数: 67 天

    [LV.6]常住居民II

    发表于 2018-6-2 16:21:56 | 显示全部楼层
    garypang 发表于 2018-6-1 19:402 J0 e) G1 F7 r9 R
    初步测试了下, 存在少量词缺失,比如 adorbs, giant
      [+ n. A3 |4 t* Q  C
    2 c; I! @& e, r3 ^$ n  已打包排版好,
    ' j4 W# Z* [) \+ g0 E& u' Z) m, ^
    版主去分享吧,缺失的部分我有时间看看
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-9-30 17:44 , Processed in 1.478282 second(s), 23 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2020, Tencent Cloud.

    快速回复 返回顶部 返回列表