账号通
    

账号  

密码  

1378

查看

3

回复
主题:基于统计的分词方法虽然分词字典解决了很多问题 [收藏主题] 转到:  
xiaoxuesuhe 当前离线

1749

主题

0

广播

2

粉丝
添加关注
级别:高一年

用户积分:2427 分
登录次数:136 次
注册时间:2012/3/3
最后登录:2021/8/21
xiaoxuesuhe 发表于:2012/6/13 19:11:19   | 显示全部帖子 查看该作者主题 楼主 
科汛在线网校系统
基于统计的分词方法虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。发现两个相邻的字出现的频率最多,那么这个词就很重要。 所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库
 
www.fxcsjx.com www.lyhwx.com www.tianxiangart.com www.txjyjt.com www.lylywd.com www.ymhwxwd.com www.jgwshachuang.com www.pdidoor.com www.pdimen.com www.qjqcj.com, www.fxcsjx.com www.lyhwx.com www.tianxiangart.com www.txjyjt.com www.lylywd.com www.ymhwxwd.com www.jgwshachuang.com www.pdidoor.com www.pdimen.com www.qjqcj.com,
  支持(0) | 反对(0) 回到顶部顶端 回到底部底部
<上一主题 | 下一主题 >
Powered By KesionCMS Version X1
厦门科汛软件有限公司 © 2006-2016 页面执行0.06250秒 powered by KesionCMS 9.0