浅析搜索引擎对网页文本分词的原理_推广优化_黑客防线网安服务器维护基地--Powered by WWW.RONGSEN.COM.CN

浅析搜索引擎对网页文本分词的原理

作者:黑客防线网安网站维护基地 来源:黑客防线网安网站维护基地 浏览次数:0

黑客防线网安网讯:  对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后...

  对于SEO人员来说自己工作的主要目标就是搜索引擎所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环!下面就把自己的浅见拿出来和广大站长朋友们分享一下!

  搜索引擎工作的第一步:提取页面文字

  首先就是抓取页面的文字,一般而言搜索引擎会把相关关键词的对应文字提取出来,还有就是meta标签等等,还有就是关键词和描述以及图片的ATL属性等等,这个ALT属性是需要用户把鼠标对应到图片上才能够看到,另外还有就是网页的相关文本,所以很多FLASH网站在搜索引擎优化方面就会吃很多亏,因为没有很多的文本,而且搜索引擎也不会抓取flash源代码!所以很多做flash网站优化的基本上会再编一套源码程序,让相关的文字和内容对应上,这样才能够被搜索引擎识别!

  搜索引擎工作的第二步:中文分词技术

  当搜索引擎把文字抓取之后,接下来的工作就是将这些文字进行分词,讲一句话分解成一个一个的短语,比如齐天大圣孙悟空这个短语,就会被分成齐天大圣和孙悟空两个单词,还比如:杨柳如是冷月这个词,我们可以通过图示一下看看这百度和谷歌的分词区别!

  

\

 

  

\

 

  这两个搜索结果是不同的,谷歌更倾向于将柳如是当成一个名词,所以在柳如是贴吧变成了第一个匹配的!而对于百度来说,就直接把这个杨柳如是冷月这个词分别变成了杨柳,如是和冷月了,所以有关柳如是贴吧却没有出现在首页上,为什么会出现这么明显的区别呢?关键是谷歌没有一个专有的词典,所以匹配方式会有一些区别,我们要针对不同搜索引擎进行关键词优化,在内容上要尽量的靠近关键词,而不能够让关键词和内容割裂开来,这样关键词的排名就很难上去了!

  搜索引擎工作的第二步:匹配技术

  一:正向匹配,上面的杨柳如是冷月就是正向匹配,这种匹配方式有助于消除歧义,让搜索出来的结果更加准确,而不会将杨柳如是,变成柳如是了!

  二:逆向匹配,这是一种从后往前匹配的方法

  三:最大化匹配,比如把美利坚合众国是自由的,最大匹配就成了美利坚合众国,自由!

  四:最小化匹配,依然拿美利坚合众国是自由的,最小匹配就成了美,利坚,合众,国,自由了,而在搜索引擎实际分词过程中,会将这几种匹配方式进行综合的运用,不会只会使用其中的一种,搜索引擎的分词技术最终的目的就只有两点,我们要奔着这两点来进行搜索引擎优化就能够有助于提升网站的排名!其一是通过各种匹配的技巧来消除文本中的歧义,让搜索的词出来的内容更加的准确和完整!其二就是通过各种匹配方式将一些人名,地名和机构名以及一些从没有登陆的词比如口头禅,流行语等等进行统计,然后将统计的结果和用户的想要了解的内容进行不同方式的匹配,从而让用户获得自己想要的内容!

  希望上面的介绍能够帮助大家理解搜索引擎运营机制,并且对中文分词有一个初步的了解,其实分词技术还有很多细节,大家可以在优化过程中不断的总结,那么就一定能够获得更好的关键词,并且尽快的把自己的网站优化到前面!来源:www.hhxjt.comusb电视棒 原创黑客防线官网,转载请保留

    黑客防线网安服务器维护方案本篇连接:http://www.rongsen.com.cn/show-6017-1.html
网站维护教程更新时间:2011-07-24 14:06:11  【打印此页】  【关闭
我要申请本站N点 | 黑客防线官网 |  
专业服务器维护及网站维护手工安全搭建环境,网站安全加固服务。黑客防线网安服务器维护基地招商进行中!QQ:29769479

footer  footer  footer  footer