galvinzhang 发表于 2017-3-18 18:10:12

感谢楼主。这个教程非常强大和实用。

abcde吕 发表于 2017-5-3 11:12:46

谢谢百度兄

maixiu 发表于 2017-5-9 04:23:58

来学习,幸苦了

hq650415hq65045 发表于 2017-5-18 10:05:10

谢谢楼主分享

hq650415hq65045 发表于 2017-5-18 10:05:41

谢谢楼主分享

greatszh 发表于 2017-5-24 10:46:00

想咨询一下,最近我也在用python抓东西,不过遇到个问题,如果一些网站是静态的,利用各种各样的接口,基本上抓下来东西不是问题,有技术含量的是抓下来的数据如何清洗,纯粹是文本字符串的从网络上抓下来的算第一步,第二步,要么利用正则要么利用一些工具类库进行筛选解析,不过这第二步,有一些网站好像页面的内容是利用脚本动态生成的,如果遇到这些网站,想打听下该怎么办?

bt4baidu 发表于 2017-5-27 09:52:21

greatszh 发表于 2017-5-24 10:46
想咨询一下,最近我也在用python抓东西,不过遇到个问题,如果一些网站是静态的,利用各种各样的接口,基本 ...

动态生成的内容,其数据一般是用json存储的,python可以解析json
需要看一下网页脚本的处理逻辑,照着处理做就可以了
比如vocabulary.com的例句、word family,都是利用脚本动态生成的,抓到的数据就是json格式,可以参考相关python代码

greatszh 发表于 2017-5-27 12:28:03

bt4baidu 发表于 2017-5-27 09:52
动态生成的内容,其数据一般是用json存储的,python可以解析json
需要看一下网页脚本的处理逻辑,照着处 ...

我看到的网上流传最广的那基本关于爬虫的书,都是介绍模拟一个浏览器环境,执行js后再处理生成的字符。如果了解网站逻辑,知道链接都是怎么生成的,应该能找到对应的json,感觉json也就是对象映射到硬盘的序列化文件。很感谢您的指导,另外,网站一般都针对爬虫做了一些限制,感觉爬虫这东西真不好说是否是病毒,就看怎么用,客户端写的东西不做限制肯定被封ip迟早的事儿,目前我是根据root的txt文件做一些延迟,不过服务器这方面的txt交待的也都比较粗浅,然后修改个抱头啥的模拟个不同的浏览器,不过感觉道高一尺魔高一丈的事儿,我一个多少年都不搞开发的人拼这方面的技术实力肯定是拼不过一些大型网站,目前我做的事儿感觉也都是一些比较粗浅的手段,能摘下来东西但比较慢也不敢太快,不知道帮主您和群里的各位好汉都是怎么处理这方面的问题的?如果设置洋葱路由啥的可能还得需要一大堆肉鸡,这方面我感觉不太方便。。。

mikelwd 发表于 2017-6-16 14:07:51

感谢整理分享~

cyxmr 发表于 2017-6-21 00:27:01

就需要这样的教程!学习了~

johnytian 发表于 2017-6-27 08:30:05

学习了,最近正在学习python科学计算,根据楼主的教程,可以顺便学下网页抓取。

aipie0066 发表于 2017-7-3 12:07:54

哈哈,谢谢了,准备从你这个帖子起步,自己抓取一本词典!!!!!

galvinzhang 发表于 2017-7-24 16:10:12

谢谢BT大神高屋建瓴的指导帖。看到大神在别的帖子里曾经提到: “抓取和存储只占10%左右的工作量,90%的工作正是数据分析处理”。这个帖子讲到后期处理只提到了正则+beautifulsoap+lxml,能分享些具体的例子吗?最近我在考虑修改一本词典,抓取部分已经基本想明白了。数据分析和处理部分也参考了Hugh的文章,对正则部分有了基本的概念,BS/lxml 部分的一些做词典的实例感觉有点难找。 另外有个小小的建议,感觉做得好的词典都有JS。有机会可以分享下写JS方面的心得吗?

vocalsir 发表于 2017-10-13 13:47:11

原来词典数据可以在线抓取,这需要高深电脑技术

吴一一 发表于 2018-1-20 06:02:06

学习,从零蛋开始的学习

guoyuying 发表于 2018-1-30 16:58:27

刚开始学习,非常感谢分享!

35se 发表于 2018-2-9 14:37:16

收藏了baidu兄的教程文章 学习下

Jason_ld 发表于 2018-2-19 19:29:47

很好的经验,收藏学习一下

yufadanci 发表于 2018-2-22 09:34:48

非常实用的技术收集贴

szs6008 发表于 2018-2-23 08:43:00

认真学习,只是PYTHON抓取字典数据时,正则表达式是个很挠头的东东,以前一直学得似是而非

wnsfzf 发表于 2018-3-9 15:59:37

感谢科普,努力学习中。

T_blue 发表于 2018-3-17 15:42:04

太牛了,可惜不会操作

名字自定义 发表于 2018-3-17 17:51:16

才看到这么棒的教程,文科出身的我都能看得下去,这水平也没谁了,谢谢。

Nv_Pm 发表于 2018-3-24 08:57:03

学习了,大佬的教程不错,值得借鉴!

wpcsxlx 发表于 2018-4-3 21:48:35

学习了,刚开始接触。
页: 1 2 3 4 [5] 6
查看完整版本: 【史上最全】在线词典抓取、制作技术汇总