实测搜狐微博是否屏蔽百度蜘蛛_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

实测搜狐微博是否屏蔽百度蜘蛛

作者:黑客防线网安网站维护基地 来源:黑客防线网安网站维护基地 浏览次数:0

黑客防线网安网讯:  事件:  只要了解SEO的朋友都知道最近利用搜狐微博抢夺百度长尾词流量的事情。由于各种原因,苏笛康并未搀和进这件事。2011年6月9日,苏笛康所在的团队QQ群突然转发一个消息,称搜狐微...

  事件:

  只要了解SEO的朋友都知道最近利用搜狐微博抢夺百度长尾词流量的事情由于各种原因苏笛康并未搀和进这件事2011年6月9日苏笛康所在的团队QQ群突然转发一个消息,称搜狐微博屏蔽百度蜘蛛了,并提供了一个Admin5论坛的帖子的URL。经过分析,苏笛康认为,搜狐微博并未屏蔽百度蜘蛛,上述言论是对搜狐微博的Robots.txt文件误读引起的。

  材料:

  搜狐微博Robots.txt文件内容(2011年6月9日晚):

  User-agent: Baiduspider

  Disallow:

  User-agent: Sogou

  Allow: /

  User-agent: *

  Disallow: /

  分析:

  首先,我们看搜狐微博Robots.txt第一部分,针对的是百度蜘蛛。

  在百度搜索帮助中心的指南(http://www.baidu.com/search/robots.html)可以找到这么一句——“Disallow:”说明允许robot访问该网站的所有URL。

  因此,第一部分的语句,允许百度蜘蛛抓取所有的URL。

  第二部分就不用看了,界定的是搜狗搜索引擎的蜘蛛抓取权限。

  最后我们看第三部分,这部分使用通配符,限定所有的搜索引擎,不允许抓取根目录(相当于不允许抓取任何URL)。这里我们仍然需要关注百度搜索帮助中心的解释。百度官方的文件是这样说的——需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。所以,第三部分的禁止指令,对百度蜘蛛而言,是无效的。百度蜘蛛根据第一部分的要求,可以抓取所有URL。

  实测:

  空口无凭,我们可以实际测试一下。已知百度和Google对待Robots.txt文件的处理方式是一样的,故而我们可以使用谷歌网站管理员工具中的“抓取工具的权限”功能来测试一下。

  由于谷歌网站管理员工具只能测试已经验证所有权的网站,我这里用自己的博客来测试。

  首先在测试用的Robots.txt中填写如下信息:

  User-agent: Googlebot

  Disallow:

  User-agent: Sogou

  Allow: /

  User-agent: *

  Disallow: /

  (注意,受测试环境影响,使用Googlebot代替百度蜘蛛,不过这不影响测试结果)

  然后用谷歌网站管理员工具测试Googlebot抓取首页(http://www.sudikang.com)的结果,反馈如下:

  第 2 行 Disallow: 允许访问此网址

  检测为目录;具体文件可能有不同限制

  实测证明,搜狐微博的Robots.txt没有屏蔽百度蜘蛛。

本文来源黑客防线网安数据维护基地WIN服务器网站维护安全配置送虚拟管理系统 MYSQL SQL FTP IIS ZEND PHP ASP ASPX Www.Rongsen.Com.Cn  专栏作家原创转发机制 。欢迎大家转载,转载时请保留此链接,谢谢合作!
    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-6677-1.html
网站维护教程更新时间:2011-07-24 23:15:13  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer