词项Term加权问题细节.ppt
《词项Term加权问题细节.ppt》由会员分享,可在线阅读,更多相关《词项Term加权问题细节.ppt(31页珍藏版)》请在第壹文秘上搜索。
1、1IR(继续)参考Jaime Carbonell讲稿和Modern Information Retrieval2Todays Topics 词项(Term)加权问题细节 Generalized Vector Space Model(GVSM)最大边界相关法(Maximal Marginal Relevance)Summarization as Passage Retrieval(基于片段提取的综述)3词项加权问题 我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定 向量空间模型 最简单的:二元向量,只是刻画一个词项的出现与否 稍复杂
2、些:计数向量,刻画一个词项在文档(查询)出现的次数 一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”4Term Weighting Revisited(1)Definitionswi“ith Term:”词,词根,或者索引的短语,统称“词项”Dj“jth Document:”文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位)5Term Weighting Revisited(2)DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所有
3、文章,Web等)Tf(wi,Dj)“Term Frequency:”,词频,wi 在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化 Tf norm=Tf/max_TF.),(max)(max_jiDwjDwTFDTFji6Term Weighting Revisited(3)DefinitionsDf(wi,C)“document frequency,文档频率:”,wi 至少在其中出现一次的文档的个数.Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi,C)“Inverse Document Frequency”:Df(wi,C)/size(
4、C)-1.多数情况下人们用 log2(IDf),而不是直接的IDf。7Term Weighting Revisited(4)词项在词项在TfIDf意义下的权重(相对于一个文档)意义下的权重(相对于一个文档)一般来讲:TfIDf(wi,Dj,C)=F1(Tf(wi,Dj)*F2(IDf(wi,C)通常,F1=0.5+log2(Tf),or Tf/Tfmaxor 0.5+0.5Tf/Tfmax通常,F2=log2(IDf),“抑制函数”在Salton的SMART IR系统中:TfIDf(wi,Dj,C)=0.5+0.5Tf(wi,Dj/Tfmax(Dj)*log2(IDf(wi,C)8TFIDF的
5、(启发式)含义 一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地 区别两个文档对同一个查询的相关程度 共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)9探个究竟 K.Papineni,“Why Inverse Document Frequency,”Proc.North American Association for Computational Linguistics,2001,pp.25-32.证明了IDF在某种距离函数意义下的优
6、化特性。10Term Weighting beyond TfIDf(1)概率模型概率模型 传统概率方法(计算q和d相关的概率)R.R.Korfhage,Information Storage and Retrieval.John Wiley&Sons,Inc.,New York,1997 G.Marchionini,Information Seeking in Electronic Environments.Cambridge University Press,New York,1995 Improves precision-recall slightly 完整的统计语言学模型(CMU)Imp
7、roves precision-recall more significantly 概率模型的共同缺点是计算效率不够高11Term Weighting beyond TfIDf(2)神经网络神经网络 理论上有吸引力 不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合模糊集合 研究还不够深入,也会有扩展性的困难12Term Weighting beyond TfIDf(3)自然语言分析法自然语言分析法 首先分析和理解Ds&Q 采用某种基于自然语言理解的IR理论,从d中获取和q相关的子集 一般来讲,自然语言理解依然是一个尚待解决的问题 即使我们能做,还有一个可扩展性问题 到现在为止,自然语言理
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词项 Term 加权 问题 细节
第壹文秘所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。


重点工作绩效评估自评表.docx
