首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
?
问与答
谁知道类似"Mozilla/3 (X8 Windows) AppleWebKit.... " 这样的 user agent 是怎么回事?
seerhut
·
2016-06-03 10:12:04 +08:00
· 2055 次点击
这是一个创建于 2899 天前的主题,其中的信息可能已经有所发展或是发生改变。
今天发现访问日志中大量的此类 user agent , IP 还很分散,全国各地都有。这是什么新的浏览器么?还是分布式爬虫?
"Mozilla/3 (X13 Windows) AppleWebKit/513.17 (KHTML, like Gecko) Chrome/ Safari/513.17"
"Mozilla/3 (X8 Windows) AppleWebKit/551.44 (KHTML, like Gecko) Chrome/ Safari/551.44"
"Mozilla/4 (X6 Windows) AppleWebKit/541.47 (KHTML, like Gecko) Chrome/ Safari/541.47"
"Mozilla/5 (X13 Windows) AppleWebKit/520.66 (KHTML, like Gecko) Chrome/ Safari/520.66"
Mozilla
gecko
khtml
Safari
4 条回复
?
2016-06-03 12:05:02 +08:00
1
fcicq
2016-06-03 10:31:08 +08:00
1
这必然是坏爬虫无疑... 现代浏览器大多 Mozilla/5.0 开头. AppleWebKit 大多数后面跟的 537.36. Chrome/ 后面没版本号. 槽点也太多了.
2
notgod
2016-06-03 10:51:19 +08:00
自定义的 ua
不过这个定义的有些傻
3
seerhut
OP
2016-06-03 11:10:51 +08:00
@
fcicq
@
notgod
关键是已经出现了数百个使用此 user agent 的 IP ,但访问的接口没有任何可爬取的内容,请求也没有恶意内容。。。。
我开始怀疑是某些分布式监控系统出现了异常,把我们的地址加入监控了
4
notgod
2016-06-03 12:05:02 +08:00
@
seerhut
PS : 爬虫不会识别是不是有可爬取的内容
爬虫只是归因所有的 URL 链接
你应该检查下 这些接口的 url 是不是在哪里公开泄露了 在什么地方有公开贴出来
被爬虫存档到链接库里 然后被爬虫识别到了 导致的这个问题
另外注意下 查看下日志 这些 IP 最开始爬的时候 有无读取 robots.txt 文件
如果有的话 加个 robots.txt 禁止所有爬虫爬取
大部分爬虫还是会遵守规则的
监控集群的话 是没这种规模的
监控一般最大一个区域部署 /24 对外的公网 IP 用于请求
你那动不动就几百个 IP 明显不是监控
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
5558 人在线
最高记录 6543
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms ·
UTC 08:38
·
PVG 16:38
·
LAX 01:38
·
JFK 04:38
Developed with
CodeLauncher
? Do have faith in what you're doing.
http://www.vxiaotou.com