- Rongsen.Com.Cn 版权所有 2008-2010 京ICP备08007000号 京公海网安备11010802026356号 朝阳网安编号:110105199号
- 北京黑客防线网安工作室-黑客防线网安服务器维护基地为您提供专业的
服务器维护
,企业网站维护
,网站维护
服务 - (建议采用1024×768分辨率,以达到最佳视觉效果) Powered by 黑客防线网安 ©2009-2010 www.rongsen.com.cn
作者:黑客防线网安网站维护基地 来源:黑客防线网安网站维护基地 浏览次数:0 |
对于很多新手站长来说,经常有这样的疑惑,为什么蜘蛛天天爬行,但是网站的快照却不更新。今天冰山一角来给大家分享下一种蜘蛛假想。
蜘蛛群理论:百度每天都靠蜘蛛抓取页面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它们各自负责不同的分工。具体的分工我也还了解不完全,可以知道的是分工可以分为新网页的爬行和旧网页的爬行。如123.125.*.*爬行新网页居多,61.135.*.*以爬行旧网页居多,百度还有其他ip段的蜘蛛,我对黑客防线网的观察,这2类比较常见。网站快照更新最快的当属首页,不是首页的话你可能被K了,因为首页权重最高,而且都会调用最新内容,也最容易被蜘蛛发现。刚刚所说的蜘蛛是一群,所以任何一只蜘蛛都是不会在一个网站一直呆着,所以虽然说百度蜘蛛天天呆在你的网站,但不见得群蜘蛛都一直呆在你的网站。蜘蛛在进驻你的网站后,开始各自分配不同的监控区域,有的蜘蛛负责head,有的蜘蛛负责root,有的负责body等等,body里面又有不同的蜘蛛干不同的事。也就是说同一只蜘蛛只负责小块区域,而且只会在一天的某些时段来过,当它发现你有更新的话,明天再来,如果没有的话给你个304,,304多了,它就会去减少爬行的频率,具体频率长什么样我也不清楚,理论模型应该是正弦曲线。
同理,所有的蜘蛛使用同一规则的话,就会出现监控head、root等区域的蜘蛛比较懒,body部分的比较勤快,不过,body中间也有懒惰的。如果你的网站天天更新,那么body更新区域的都是200,其他的是304.那么百度要考虑给你最新的快照呢还是不给?于是就要投票表决,因为是群蜘蛛嘛,蜘蛛们都有投票权,才显得公平,但是又有一个问题,蜘蛛的分量不同,如body区的蜘蛛,工作比较辛苦,head区就比较轻松,所以蜘蛛投票需要分权,body的蜘蛛权值高,root区的权值低,当然中间还有不等的权值。经加权后的计算结果来决定百度给不给该网站最新快照。这就是为什么网站天天更新但是快照不更新的原因之一。
这样一来的话,我们可以从以下几个方面入手解决快照慢的问题,一个是让body的蜘蛛更勤快,提升带回200蜘蛛的权值,给投票带来优势。二是减少监控区,监控区域太多,那么无所事事的蜘蛛就越多,和我国的有关部门一样,所以我们要做到精简,那么拉后腿的蜘蛛就要说再见了。
下面来讲为什么百度会对改版的网站降权,原因其实很简单,原先进驻网站的蜘蛛因为只是负责小区域,当你改版后,它发现自己的区域没了,手足无措,于是百度就将蜘蛛召回,然后重新观察,放出蜘蛛观察员,然后再把网站分小块,改天再派蜘蛛进去,重新开始蜘蛛的工作,那么你的站就恢复正常了。
说了这么多,发现自己行文的风格变了,不过拟人化会更容易理解。本文由http://www.hacker.com.cn/黑客防线原创,谬误之处欢迎指正,转载请留链,谢谢。
我要申请本站:N点 | 黑客防线官网 | |
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479 |