百度分词原理的探讨与猜测
发布-YUEWU.ORG | 查看- | 发表时间-2012/6/5
百度搜索引擎是名副其实的中文搜索老大哥,严格来说是他有了一套非常好的分词技术。当然高深的分词技术我们是无法探知的。但是通过一些表面现象,也能管中窥豹,初步猜测百度的分词原理。今天深圳SEO悦鹜就谈一谈关于百度分词的一点点基本的猜测。
首先我们要了解百度分词的条件,并不是所有的词都会有分词产生,例如我们搜索“研究生”,返回的结果,我们会看到精准匹配,那么百度就对这个词没有进行了分词处理,请看下图:
而我们搜索“小说下载”,百度就会将这些词拆分为“小说”、“下载”和“小说下载”,如图:
于是有朋友就在猜测,会不会百度以三个中文字为限,开始实施分词呢?大家可以多次测试一下,这种说法是相当有市场的,但是后面悦鹜又搜索关键词的时候发现一个问题,如果一个词已经被百度词库收为一个单独的词,那么不管他多么长,百度也会先推荐精准匹配网页,然后推荐分词匹配网页。
例如,在搜索“你妈妈喊你回家吃饭”,一般来说这样的句子肯定是要被分词处理的,但是因为去年一贴走红网络,这个句子已经成为大家常搜的词语,百度也已经对这个词比较认可了,将他收入词库中,那么它就可以实现精准匹配。如下图,网页标题中都是精准匹配,未见分词匹配:
通过以上几种搜索结果猜测:用户在搜索某个关键词,百度会根据自己词库先进行精准匹配,如果这个词是很常用的词,那么百度就会调用相关的网页结果,如果不存在就进行分词处理,得出的搜索结果也会产生一些分词处理情况,至于结果排名影响因素比较多,比如网站的权重、网站是否把这个词做为长尾关键词或目标关键词来做重点优化等。具体的需要深入分析,这里就不班门弄斧了。
或许你还对下面的文章感兴趣
- 修改网站标题后需要做哪些工作(2012-6-4 17:26:0)
- 什么使得网站内容值得链接(2012-6-3 8:58:56)
- 网站回头率低的原因及改善措施(2012-6-2 10:48:5)
- 捕捉蜘蛛——SEOer必须掌握的技能(2012-6-1 15:0:36)
- 网页标题的写法及常见问题(2012-5-31 10:13:36)
- 解密日期为2003-2-21的百度快照(2012-5-30 10:22:35)
- 高权重链接的五个标准(2012-5-29 8:40:53)
- 外链建设 你做了多少无用功?(2012-5-28 21:39:41)
- 竞争对手网站分析的几个方面(2012-5-27 17:20:48)
- 悦鹜谈论坛推广的几个要点(2012-5-26 15:6:46)

http://www.68eg.com/
2012/6/10 18:58:58 【回复】

http://www.jipaiyingxiong.com/
2012/6/5 14:42:05 【回复】
最新文章
最近评论
访客留言
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。