关于百度快照问题的蜘蛛群假想理论_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

关于百度快照问题的蜘蛛群假想理论

作者:黑客防线网安网站维护基地 来源:黑客防线网安网站维护基地 浏览次数:0

本篇关键词:理论蜘蛛问题百度
黑客防线网安网讯:  对于很多新手站长来说,经常有这样的疑惑,为什么蜘蛛天天爬行,但是网站的快照却不更新。今天冰山一角来给大家分享下一种蜘蛛假想。  蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不...

  对于很多新手站长来说经常有这样的疑惑为什么蜘蛛天天爬行,但是网站的快照却不更新今天冰山一角来给大家分享下一种蜘蛛假想

  蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它们各自负责不同的分工。具体的分工我也还了解不完全,可以知道的是分工可以分为新网页的爬行和旧网页的爬行。如123.125.*.*爬行新网页居多,61.135.*.*以爬行旧网页居多,百度还有其他ip段的蜘蛛,我对黑客防线网的观察,这2类比较常见。网站快照更新最快的当属首页,不是首页的话你可能被K了,因为首页权重最高,而且都会调用最新内容,也最容易被蜘蛛发现。刚刚所说的蜘蛛是一群,所以任何一只蜘蛛都是不会在一个网站一直呆着,所以虽然说百度蜘蛛天天呆在你的网站,但不见得群蜘蛛都一直呆在你的网站。蜘蛛在进驻你的网站后,开始各自分配不同的监控区域,有的蜘蛛负责head,有的蜘蛛负责root,有的负责body等等,body里面又有不同的蜘蛛干不同的事。也就是说同一只蜘蛛只负责小块区域,而且只会在一天的某些时段来过,当它发现你有更新的话,明天再来,如果没有的话给你个304,,304多了,它就会去减少爬行的频率,具体频率长什么样我也不清楚,理论模型应该是正弦曲线。

  同理,所有的蜘蛛使用同一规则的话,就会出现监控head、root等区域的蜘蛛比较懒,body部分的比较勤快,不过,body中间也有懒惰的。如果你的网站天天更新,那么body更新区域的都是200,其他的是304.那么百度要考虑给你最新的快照呢还是不给?于是就要投票表决,因为是群蜘蛛嘛,蜘蛛们都有投票权,才显得公平,但是又有一个问题,蜘蛛的分量不同,如body区的蜘蛛,工作比较辛苦,head区就比较轻松,所以蜘蛛投票需要分权,body的蜘蛛权值高,root区的权值低,当然中间还有不等的权值。经加权后的计算结果来决定百度给不给该网站最新快照。这就是为什么网站天天更新但是快照不更新的原因之一。

  这样一来的话,我们可以从以下几个方面入手解决快照慢的问题,一个是让body的蜘蛛更勤快,提升带回200蜘蛛的权值,给投票带来优势。二是减少监控区,监控区域太多,那么无所事事的蜘蛛就越多,和我国的有关部门一样,所以我们要做到精简,那么拉后腿的蜘蛛就要说再见了。

  下面来讲为什么百度会对改版的网站降权,原因其实很简单,原先进驻网站的蜘蛛因为只是负责小区域,当你改版后,它发现自己的区域没了,手足无措,于是百度就将蜘蛛召回,然后重新观察,放出蜘蛛观察员,然后再把网站分小块,改天再派蜘蛛进去,重新开始蜘蛛的工作,那么你的站就恢复正常了。

  说了这么多,发现自己行文的风格变了,不过拟人化会更容易理解。本文由http://www.hacker.com.cn/黑客防线原创,谬误之处欢迎指正,转载请留链,谢谢。

    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-5917-1.html
网站维护教程更新时间:2011-07-24 14:04:31  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer