注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

老狗的博客

尽管每一步都很微小,但我确认我在进步

 
 
 

日志

 
 
关于我
sky

认真生活,努力工作 热爱技术,关注DB,存储,分布式,中间层,java,c++,php

网易考拉推荐

ik-analyzer 分词器试用  

2012-05-10 09:17:38|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

中文分词

又称【Chinese Word Segmentation】

英文以空格作为单位,自然形成词的序列,而中文在词上无明显分界符,相对比较困难
现有的中文分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法

常见的歧义用例

1. 交集歧义
中外科学名著
中外/科学/名著
中/外科/学/名著

为/人民/办/公益
为人/民办/公益

菜/的/确切/得/不错

乒乓/球拍/卖/完了
乒乓球/拍卖/完了

2. 组合型歧义
.他将来上海工作

3. 未登录词
费孝通向大常委会提交书面报告
邓颖超生前使用过的物品

常用的分词软件

lucene自带的有
ChineseTokenizer: 单字切词,基本没用
CJKTokenizer: 双字切词,这个还是很有用的,在实现全模糊匹配的时候有用
N-gram:N字切词

基于java开源产品:
PaoDing/ik等
基于词典,效率较高,统计方法较少引入

ik测试

ik-analyzer 分词器试用 - sky - 老狗的博客
 
结果集为:
为人/民办/公益/
中外/科学/名著/
菜/的确/切的/不错/
nokia/诺基亚/5013/kinect/

可以看到:第一个切的是错误的


  评论这张
 
阅读(3416)| 评论(1)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018