分析搜索引擎如何判断网站的相似度_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

分析搜索引擎如何判断网站的相似度

作者:黑客防线网安网站维护基地 来源:黑客防线网安网站维护基地 浏览次数:0

黑客防线网安网讯:  大家都知道文章内容重复过高不好,会被K,会降权,不会被收录,各种说法流连在SEO初学者的脑海中,一个新站数据怎么来?你能每天更新几十篇内容吗?显然很多人搞不定,于是采集这个说法就...

  大家都知道文章内容重复过高不好会被K会降权,不会被收录,各种说法流连在SEO初学者的脑海中,一个新站数据怎么来?你能每天更新几十篇内容吗?显然很多人搞不定,于是采集这个说法就有了,继而出现了伪原创,常见的为原创方式是颠倒文章内容,近义词替换,添加或者减少一部分内容,但是用久了后发现,这样还是不会收录,原因是什么呢?今天笔者就详细的分析了下,希望这篇文章可以解决大家的疑问

  百度并不是不收录内容相同的网站,像经常写软文的就知道,写了软文就是为了让别人转载,就是为了增加外链和相关域,显然是可以收录的,举个明显的例子:百度新闻搜索关云长

  

\

 

  可以很明显的看到有相同新闻,这就代表同样的内容还是可以收录的,如果仔细查看,可以点击上图花红圈的地方进去,

  

\

 

  这些都是相似页面,仔细看看会发现,有的标题不一样,描述大部分也不一样,所以标题细微的变化和描述的不相同对伪原创是没有作用的,百度可以识别出来,

  然后我们再看看正文部分,笔者找到一个工具,可以检测两篇文章的相似度,大家来看看正文部分的相似度:

  

\

 

  忘记标红了,呵呵,大家将就下,数值在最上边,内容是从标题到文章结束部分,相似度是96.973%,相似度很高,很明显这样的文章简直就可以说是采集的,可是仔细想想,搜索引擎是通过蜘蛛来访问的页面,那么判断文章相似度会不会和源代码有关系呢?于是笔者有把两个网站的源代码复制进去检测了下相似度,请看下图:

  

\

 

  这个是百度新闻搜索cnzz的2个相似页面的源代码,相似度大大降低了,才45.332%,这样的两个页面很显然是无法判断出来的,但是百度偏偏又可以判断出这2篇文章相似

  总结:通过以上观察,搜索引擎的判断能力加强了,不再局限于网站的源代码,而是可以直接找出文章的中文部分,并来对比其他网站,所以即使大家的网站程序不一样,页面布局不一样,只要内容是采集的,那么搜索引擎就可以判断出文章的相似度,但是并不是内容相似百度就不收录。

  版权没有,盗版不究,任意抄袭,确保完整,www.hacker.com.cn。交流才能进步,借助黑客防线平台和大家分享,交流

    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-5837-1.html
网站维护教程更新时间:2011-07-24 13:57:00  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer