注册 登录  
 加关注

网易博客网站关停、迁移的公告:

将从2018年11月30日00:00起正式停止网易博客运营
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

老狗的博客

尽管每一步都很微小,但我确认我在进步

 
 
 

日志

 
 
关于我
sky

认真生活,努力工作 热爱技术,关注DB,存储,分布式,中间层,java,c++,php

网易考拉推荐

TF*IDF  

2012-05-17 22:17:54|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

term在文档集中的权重


假设一个文档集中有N篇文档,每个文档中有M个词汇,如果给定一个词汇T, 则此词汇在文档中的权重如何计算?

首先考虑极端的情况,假设所有的文档都包含这个词汇,说明什么问题?
如果所有的文档都包含这个词汇,则说明这个词汇不能代表文档的特征,他的区分度为0,也就是说它的权重应该赋值为0

从信息论的角度来看这个问题:
如果我们把现有的文档库当做语料库来看,则词t1在一篇文档中是否出现的概率可以用语料库的统计频率来估值,也就是

x(t1) = 词t1在文档中出现
p(x(t1) = document numbers(including t1)/ all document numbers
t1的信息量为 -log p(x(t1)) = log (all document numbers)/document numbers(including t1)

term在文档中的权重

weight(term) = tf(term) * term在文档集中的权重

tf(term)则指归一化后的词频
如一篇文档一共有100个词汇,lucene在其中出现了10次,在词频为0.1

TF*IDF

可以看到,TF*IDF计算权重的方式倾向于过滤掉信息量较低,词频较低的词语,
  评论这张
 
阅读(369)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018