掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 995|回复: 4

[讨论] 可能对通过爬虫制作在线词典有用

[复制链接]
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-3-7 20:55:28 | 显示全部楼层 |阅读模式
    有些网站禁止未登陆用户访问,但会对搜索引擎开绿灯。开绿灯的方式有可能只是简单地判断 User Agent。( `7 [9 U+ J. A9 A% [3 f
    / i3 ~/ t) W7 H6 o
    所以,只要把浏览器的 User Agent 改为搜索引擎的爬虫即可访问其内容。对 Chrome 来说就是按 F12,点下面那三个点,在菜单中选 Network conditions,然后将 User Agent 设置为 Googlebot 即可。 ​

    ( m$ ^% h( q5 a) o) o
    & S7 P5 ^. x$ E# c6 N# R- B
    F12 这招只对当前标签页有效,适合临时查个资料看一下。对某些需要长时间沉浸式体验的网站,可以直接在命令行上修改全局 User Agent:chrome.exe --user-agent="Mozilla/5.0 (compatible; Googlebot/2.1)"
    % \% J4 [+ {# [0 [! W7 {2 P
    7 W! F0 n, \# D4 [1 G5 H7 T" H
    FireFox有多款插件,也很灵活。
    4 h2 R1 p# o  `* X) L) v

    7 l, m$ t6 ]" L/ L$ ^: K以上内容来自微博。供参考。

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2019-3-7 21:26:16 | 显示全部楼层
    本帖最后由 simonfire 于 2019-3-7 21:29 编辑 " h" X- Q) }! R  ~% I) S1 _0 j
    2 m# j% t( J+ Z2 s( ?; B: R
    感觉这个办法纯粹就是碰运气,对反爬的网站帮助不大。
    7 G2 v! |% W" v' r/ r" c6 N不过咱们貌似关注了同一个人:tombkeeper
    % f8 W3 m7 c# E/ U

    该用户从未签到

    发表于 2019-3-8 06:46:20 | 显示全部楼层
    这些网站更多的需要用代理,而且还要随机更换。
  • TA的每日心情
    奋斗
    2019-10-13 07:34
  • 签到天数: 209 天

    [LV.7]常住居民III

    发表于 2019-3-8 10:42:36 | 显示全部楼层
    使用TOR的切换IP功能,IP资源丰富。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

    发表于 2019-3-8 19:14:56 | 显示全部楼层
    同关注教主。。。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 04:25 , Processed in 0.044202 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表