该如何辨别日志里爬虫后的痕迹_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

该如何辨别日志里爬虫后的痕迹

作者:黑客防线网安网站维护基地 来源:黑客防线网安网站建设网 浏览次数:0

本篇关键词:日志
黑客防线网安网讯:不知道大家是否知道爬虫在日志里留下的记录有些是假象,可能还有很多看到这句话都还觉得不可思议,会觉得搜索引擎爬虫还有假的?
不知道大家是否知道爬虫在日志里留下的记录有些是假象可能还有很多看到这句话都还觉得不可思议会觉得搜索引擎爬虫还有假的?

但是在实际当中我们不得不承认有那么些爬虫是伪装的,那么我们怎么来辨别爬虫在是真是假,这正是今天笔者要跟大家分享的内容

今天主要跟大家分享下我们常接触的搜索引擎:百度(Baiduspider/2.0)与google(Googlebot)

①     验证百度蜘蛛(Baiduspider/2.0)的真伪

方法1——Linux环境下

您可以使用host ip命令反解ip来判断Baiduspider的抓取是否冒充。Baiduspider的hostname以*.baidu.com的格式命名,非*.baidu.com即为冒充。

$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer baiduspider-123-125-66-120.crawl.baidu.com.

方法2——windows环境下

开始->运行->tracert 123.456.78.90(即抓取您网站的IP地址)

或者开始->运行->nslookup 123.456.78.90

查看name信息,未标识为Baiduspider即为冒充。

验证谷歌爬虫(Googlebot/)

您可以验证实际访问您服务器的漫游器是否是 Googlebot,只要使用反向 DNS 查找,验证该名称是否在 googlebot.com 域名中,然后使用该 Googlebot 名称执行正向 DNS 查找就可以了。 如果您担心垃圾邮件发送者或其他捣乱者(虽然声称是 Googlebot)访问您的网站,那么此验证会很有用。

例如: > host 66.249.66.1

1.66.249.66.in-addr.arpa domain name pointer

crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com

crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Google 不会张贴供网站管理员添加到白名单的公共 IP 地址列表。 这是因为这些 IP 地址的范围可能发生变化,从而导致对这些地址进行硬编码的任何网站管理员遇到问题。 确定访问来自 Googlebot 的最好办法是使用 User-agent (Googlebot)。

以上就是今天要和大家分享的如何还辨别爬虫在iis日志里留下的真伪痕迹,大家学会了吗?黑客防线网安seo还是那句话,seo是实践才出真理的,所以大家动动手吧。
    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-16835-1.html
网站维护教程更新时间:2012-04-17 01:02:14  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer