账号通
    

账号  

密码  

1799

查看

0

回复
主题: 百度美化分词位子的定律 [收藏主题]  
wangluoyang711 当前离线

1907

主题

0

广播

0

粉丝
添加关注
级别:高二年

用户积分:5201 分
登录次数:239 次
注册时间:2010/12/2
最后登录:2023/4/5
wangluoyang711 发表于:2011/7/15 13:35:21   | 只看该作者 查看该作者主题 楼主 
科汛在线考试系统(NET)

本文议决搜刮成绩归纳分析+切词通用算法分析的要领对百度预处理惩处阶段的查问处理惩处与中文分词两项技能举行了叙述、总结,要是你对数据布局、算法有肯定相识的话,明白起来会相对容易些;个人私家以为,得出正向最大立室算法不够精确,无论是专用词典还是平凡词典里的词,都是有差异权重的,这根搜刮频率应该有肯定干系,基于这点,在出现多个专用词典里的词时,是必要接纳双向最大立室算法来检测到底哪一个专有词汇应该先被切出来,即使,这是个人私家料想,有待讲求。

  明白分词技能对seo事情具有很大意义,能从科学的角度来分析要害词,并构想要害词陈设战略;要是正向最大立室算法的结论是精确的,那根本上能断定,切词后的分词的权重是依据正向排序的

  咱还想搞明确的是专用词典与平凡词典,哪一个权重会更高?

  以下为转载的原文:

  查问处理惩处以及分词技能

  随着搜刮经济的崛起,人们开始越加关注环球各大搜刮引擎的性能、技能与日流量。作为企业,会依据搜刮引擎的知名度以及日流量来选择是否要投放广告等;作为平凡网民,会依据搜刮引擎的性能与技能来选择本身爱好的引擎查找资料;作为技能人员,会把有代表性的搜刮引擎作为研究东西。搜刮引擎经济的崛起,又一次向人们证明白网络所蕴藏的巨大商机。重点线美化认为网络远离了搜刮将只剩下空洞混乱的数据,以及大量等候去费力发掘的金矿。不过,怎样计划一个高效的搜刮引擎?咱们能以百度所采取的技能本事来探究怎样计划一个实用的搜刮引擎。搜刮引擎涉及到许多技能点,好比查问处理惩处,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。这些技能细节,作为商业公司的搜刮引擎办事提供商好比百度,GOOGLE等是不会公之于众的。咱们能将现有的搜刮引擎看作一个黑盒,议决向黑盒提交输入,果断黑盒返回的输出大抵果断黑盒内里不为人知的技能细节。

  查问处理惩处与分词是一此中文搜刮引擎必不行少的事情,而百度作为一个典范的中文搜刮引擎不停强调其“中文处理惩处”方面具有别的搜刮引擎所不具有的要害技能与优势。那么咱们就来看看百度到底接纳了哪些所谓的核心技能。

  咱们分两个部门来报告:查问处理惩处/中文分词。

  一、查问处理惩处

  用户向搜刮引擎提交查问,搜刮引擎一样平常在继承到用户查问后要做一些处理惩处,然后在索引数据库内里提取相干的资讯。那么百度在继承到用户查问后做了些什么事情呢?

  一、假设用户提交了不仅一个查问串,好比“资讯检索 理论 东西”。那么搜刮引擎首先做的是依据分别符好比空格,标点标记,将查问串支解成多少子查问串,好比上面的查问就会被分析为:三个子字符串;这个原理简略,咱们接着往下看。

  二、假设提交的查问有重复的内容,搜刮引擎如何处理惩处呢?好比查问“理论东西理论”,百度是将重复的字符串当作只出现过一次,也就是处理惩处成等价的“理论东西”,重点ljlife.net线美化认为GOOGLE显然是没有举行归并,而是将重复查问子串的权重增大肆行处理惩处。那么是怎样得出这个结论的呢?咱们能将“理论东西”提交给百度,返回三四一,零零零篇文档,大抵看看第一页的返回内容。

  OK。连续,咱们提交查问“理论东西理论”,在看看返回成绩,仍然是那么多返回文档,即使这个不能阐明太多问题,那看看第一页返回成绩的排序,看出来了吗?序次完全没有变革,而 GOOGLE 则排序有些变动,这阐明百度是将重复的查问归并成一个处理惩处的,并且字符串之间的先后出现序次根本不予思量(GOOGLE是思量了这个序次干系的)。

  三、假设提交的中文查问包罗英文单字,搜刮引擎是如何处理惩处的?好比查问”影戏BT下载”,百度的要领是将中文字符串中的英文当作一个团体保留,并以此为断点将中文切远离,如此上述的查问就切为,不论中间的英文是否一个字典里能查到的单字也好,还是随机的字符也好,都市当作一个团体来对待。至于为什么,你用查问 “影戏dfdfdf下载”看看成绩就了解了。即使要是查问中包罗数字,也是云云处理。

转载请注明商贸网http://www.haodew.com/

 
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.10938秒 powered by KesionCMS 9.0