抓取越来越难了 .....
本帖最后由 lxchen2001 于 2016-11-30 10:13 编辑谷歌:刚刚启动几分钟,就被侦探到了
谷歌词典好在哪里呢?有个历史趋势图, 以及词源图。
牛津:已经关掉索引页,没了索引,只能瞎撞了。
其他的网站,迟早吧。
并非坏事,把现有的用好。 Google definition源自ODE,只是多了一个词汇使用趋势。
oxforddictionaries这个词典在增加例句后论坛里有没有人抓取的? 本帖最后由 lxchen2001 于 2016-11-30 11:55 编辑
elusty 发表于 2016-11-30 07:42
Google definition源自ODE,只是多了一个词汇使用趋势。
ODE大概也有趋势数据 没有公开而已
词源的显示谷歌做得比较直观清晰
(柯林斯也有趋势图,但用起来不方便) shakahenryqht 发表于 2016-11-30 08:45
oxforddictionaries这个词典在增加例句后论坛里有没有人抓取的?
例句有点太多了 你开VPN上的吗? Babybear1 发表于 2016-11-30 11:19
你开VPN上的吗?
{:4_109:}
楼主本就不在墙内,不需要科学上网。
Alexa 统计数据(准不准另说)显示 http://www.alexa.com/siteinfo/pdawiki.com,论坛至少 5% 的访问者都不在墙内的。
Oeasy 发表于 2016-11-30 11:26
楼主本就不在墙内,不需要科学上网。
Alexa 统计数据(准不准另说)显示 http://www.alex ...
不在墙内都难抓,在墙内可能就更难了
谷歌的本职工作就是抓别人,所以防爬经验,没有比它更丰富的了。{:4_109:}
lxchen2001 发表于 2016-11-30 10:49
例句有点太多了
现在能抓吗?是不是也是抓起来很麻烦? 这种很简单。
假设不能超过3分钟:
1、用A代理,抓取2分50秒后断开。
2、再用B代理,抓取2分50秒后断开。
3、再用C、D、E等代理,分别抓取2分50秒后断开。
4、步骤1~3循环。
以前抓finedictionary就是这种情况,后来搞得所有美国代理都上不去了,但是某些国家的代理还能上。
谷歌的词源做的真不错,条理清晰容易记 大熊部落 发表于 2016-11-30 16:00
这种很简单。
假设不能超过3分钟:
嗯 应该代理可以解决
不过我还不会用,而且查找可用的代理也很花时间。
shakahenryqht 发表于 2016-11-30 12:00
现在能抓吗?是不是也是抓起来很麻烦?
可以抓取 不过我没很大兴趣去做
之前有个帖子用了新版牛津的资料 lxchen2001 发表于 2016-11-30 19:58
可以抓取 不过我没很大兴趣去做
之前有个帖子用了新版牛津的资料
大神,能否写个代码,告诉我怎么抓取,我来抓取。 shakahenryqht 发表于 2016-11-30 22:23
大神,能否写个代码,告诉我怎么抓取,我来抓取。
我的代码比较低级。
你可以先试试:https://www.pdawiki.com/forum/thread-14024-1-1.html 最好抓的就是剑桥了 不f#a$n%q^i*a$n&g速度都很快 之前抓连断点续传都不用 挂机几小时搞定 现在也有限制了 一卡一卡的
页:
[1]