掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

[复制链接]
  • TA的每日心情
    开心
    昨天 10:05
  • 签到天数: 969 天

    [LV.10]以坛为家III

    发表于 2017-3-14 09:14:07 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    * }8 h4 v" b; k( ?( l& q( U现有的mdx词典,其实足够绝大多数人用一辈子的了
    , U: K: }: @* i! J* L
    % H/ L5 x6 j. O4 W5 I. t本人前段时间制作、收集了不少,经过一段时间的比较 ...

    2 e4 \% q( v8 C# L主力阵容:VOC、ODE、WBD。/ O6 P. x9 Z" @& ]
                  _____, \- l' H  R" l3 {) O" V
    这个VOC是指哪一本啊?是Vocabulary.com吗?其他的还都能猜出来。
  • TA的每日心情
    开心
    昨天 10:05
  • 签到天数: 969 天

    [LV.10]以坛为家III

    发表于 2017-3-18 18:10:12 | 显示全部楼层
    感谢楼主。这个教程非常强大和实用。
  • TA的每日心情
    开心
    2018-8-18 17:47
  • 签到天数: 103 天

    [LV.6]常住居民II

    发表于 2017-5-3 11:12:46 | 显示全部楼层
    谢谢百度兄
  • TA的每日心情
    开心
    2020-3-13 19:23
  • 签到天数: 288 天

    [LV.8]以坛为家I

    发表于 2017-5-9 04:23:58 | 显示全部楼层
    来学习,幸苦了

    该用户从未签到

    发表于 2017-5-18 10:05:10 | 显示全部楼层
    谢谢楼主分享

    该用户从未签到

    发表于 2017-5-18 10:05:41 | 显示全部楼层
    谢谢楼主分享
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2017-5-24 10:46:00 | 显示全部楼层
    想咨询一下,最近我也在用python抓东西,不过遇到个问题,如果一些网站是静态的,利用各种各样的接口,基本上抓下来东西不是问题,有技术含量的是抓下来的数据如何清洗,纯粹是文本字符串的从网络上抓下来的算第一步,第二步,要么利用正则要么利用一些工具类库进行筛选解析,不过这第二步,有一些网站好像页面的内容是利用脚本动态生成的,如果遇到这些网站,想打听下该怎么办?

    该用户从未签到

     楼主| 发表于 2017-5-27 09:52:21 | 显示全部楼层
    greatszh 发表于 2017-5-24 10:468 b6 [: x6 x8 e. ?5 i, X5 j
    想咨询一下,最近我也在用python抓东西,不过遇到个问题,如果一些网站是静态的,利用各种各样的接口,基本 ...
    7 f. c' ?: c' \' u' ^) w- y4 e
    动态生成的内容,其数据一般是用json存储的,python可以解析json
    : B! {$ o+ E4 t" A! f需要看一下网页脚本的处理逻辑,照着处理做就可以了3 K+ P: G$ M/ I" _1 E0 e* M* k
    比如vocabulary.com的例句、word family,都是利用脚本动态生成的,抓到的数据就是json格式,可以参考相关python代码' t. W) [( j* S* d, C6 g# \
  • TA的每日心情
    奋斗
    2018-11-10 00:38
  • 签到天数: 346 天

    [LV.8]以坛为家I

    发表于 2017-5-27 12:28:03 | 显示全部楼层
    bt4baidu 发表于 2017-5-27 09:523 {- j+ j& M. x
    动态生成的内容,其数据一般是用json存储的,python可以解析json0 r: D+ z& ]9 [+ [  r
    需要看一下网页脚本的处理逻辑,照着处 ...

    8 ?  S3 |/ C0 [3 _4 a: {- X+ O我看到的网上流传最广的那基本关于爬虫的书,都是介绍模拟一个浏览器环境,执行js后再处理生成的字符。如果了解网站逻辑,知道链接都是怎么生成的,应该能找到对应的json,感觉json也就是对象映射到硬盘的序列化文件。很感谢您的指导,另外,网站一般都针对爬虫做了一些限制,感觉爬虫这东西真不好说是否是病毒,就看怎么用,客户端写的东西不做限制肯定被封ip迟早的事儿,目前我是根据root的txt文件做一些延迟,不过服务器这方面的txt交待的也都比较粗浅,然后修改个抱头啥的模拟个不同的浏览器,不过感觉道高一尺魔高一丈的事儿,我一个多少年都不搞开发的人拼这方面的技术实力肯定是拼不过一些大型网站,目前我做的事儿感觉也都是一些比较粗浅的手段,能摘下来东西但比较慢也不敢太快,不知道帮主您和群里的各位好汉都是怎么处理这方面的问题的?如果设置洋葱路由啥的可能还得需要一大堆肉鸡,这方面我感觉不太方便。。。

    该用户从未签到

    发表于 2017-6-16 14:07:51 | 显示全部楼层
    感谢整理分享~

    该用户从未签到

    发表于 2017-6-21 00:27:01 | 显示全部楼层
    就需要这样的教程!学习了~

    该用户从未签到

    发表于 2017-6-27 08:30:05 | 显示全部楼层
    学习了,最近正在学习python科学计算,根据楼主的教程,可以顺便学下网页抓取。
  • TA的每日心情
    开心
    2019-8-8 16:36
  • 签到天数: 397 天

    [LV.9]以坛为家II

    发表于 2017-7-3 12:07:54 | 显示全部楼层
    哈哈,谢谢了,准备从你这个帖子起步,自己抓取一本词典!!!!!
  • TA的每日心情
    开心
    昨天 10:05
  • 签到天数: 969 天

    [LV.10]以坛为家III

    发表于 2017-7-24 16:10:12 | 显示全部楼层
    谢谢BT大神高屋建瓴的指导帖。看到大神在别的帖子里曾经提到: “抓取和存储只占10%左右的工作量,90%的工作正是数据分析处理”。这个帖子讲到后期处理只提到了正则+beautifulsoap+lxml,能分享些具体的例子吗?最近我在考虑修改一本词典,抓取部分已经基本想明白了。数据分析和处理部分也参考了Hugh的文章,对正则部分有了基本的概念,BS/lxml 部分的一些做词典的实例感觉有点难找。 另外有个小小的建议,感觉做得好的词典都有JS。有机会可以分享下写JS方面的心得吗?
  • TA的每日心情
    开心
    2020-2-20 08:39
  • 签到天数: 117 天

    [LV.6]常住居民II

    发表于 2017-10-13 13:47:11 | 显示全部楼层
    原来词典数据可以在线抓取,这需要高深电脑技术
  • TA的每日心情
    难过
    2018-6-2 18:25
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2018-1-20 06:02:06 | 显示全部楼层
    学习,从零蛋开始的学习
  • TA的每日心情
    开心
    2019-7-9 17:52
  • 签到天数: 137 天

    [LV.7]常住居民III

    发表于 2018-1-30 16:58:27 | 显示全部楼层
    刚开始学习,非常感谢分享!
  • TA的每日心情
    开心
    2018-2-9 09:10
  • 签到天数: 23 天

    [LV.4]偶尔看看III

    发表于 2018-2-9 14:37:16 | 显示全部楼层
    收藏了baidu兄的教程文章 学习下
  • TA的每日心情
    奋斗
    2019-2-28 12:41
  • 签到天数: 187 天

    [LV.7]常住居民III

    发表于 2018-2-19 19:29:47 | 显示全部楼层
    很好的经验,收藏学习一下
  • TA的每日心情
    擦汗
    2018-8-21 14:27
  • 签到天数: 10 天

    [LV.3]偶尔看看II

    发表于 2018-2-22 09:34:48 | 显示全部楼层
    非常实用的技术收集贴
  • TA的每日心情
    奋斗
    2020-1-14 20:33
  • 签到天数: 108 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:43:00 | 显示全部楼层
    认真学习,只是PYTHON抓取字典数据时,正则表达式是个很挠头的东东,以前一直学得似是而非
  • TA的每日心情
    开心
    2019-11-30 08:00
  • 签到天数: 56 天

    [LV.5]常住居民I

    发表于 2018-3-9 15:59:37 来自手机 | 显示全部楼层
    感谢科普,努力学习中。
  • TA的每日心情
    擦汗
    2020-2-27 15:21
  • 签到天数: 198 天

    [LV.7]常住居民III

    发表于 2018-3-17 15:42:04 | 显示全部楼层
    太牛了,可惜不会操作
  • TA的每日心情

    2020-5-4 09:12
  • 签到天数: 414 天

    [LV.9]以坛为家II

    发表于 2018-3-17 17:51:16 | 显示全部楼层
    才看到这么棒的教程,文科出身的我都能看得下去,这水平也没谁了,谢谢。
  • TA的每日心情
    慵懒
    2020-7-4 16:37
  • 签到天数: 32 天

    [LV.5]常住居民I

    发表于 2018-3-24 08:57:03 | 显示全部楼层
    学习了,大佬的教程不错,值得借鉴!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    顶部qrcode底部
    关注公众号送论坛充值码
    关注微信公众平台
    关注微信公众号 pdawiki,获取邀请码,看文抢积分,抽奖得浮云! Follow our Wechat official account "pdawiki", get invitation codes, and play the lottery to earn points (积分)!

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2020-8-9 02:22 , Processed in 0.035076 second(s), 4 queries , MemCache On.

    Powered by Discuz! X3.4

    © 2001-2017 Comsenz Inc.

    快速回复 返回顶部 返回列表