关于词频倒排文档频公式的改正.pdfVIP

  • 7
  • 0
  • 约6.18万字
  • 约 49页
  • 2018-06-08 发布于贵州
  • 举报
关于词频倒排文档频公式的改正

摘要 向量空间模型“sM)是文本信息处理的经舆模型,它把文本用向量表示,以特征项的权值作 为分量,这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式 是标准化的词频倒排文档频(TFIDF)公式。 研究发现,向量空间模型并不是一个完善的模型,其最大的缺陷是假设特征项之间是相互独 立的。这使得用向量空间模型表示文本集时,很可能造成信息遗漏或冗余。此外TFIDF公式同样 不够准确,它简单地认为特征项权值与包含该特征项的文档数成反比,而没有考虑特征项分布的 比例情况。 本文使用中文信息处理工具从中文文本集中抽取词条,并通过知网系统把词条空间映射到概 念空间。用概念代替词条作为特征项的方法间接达到了降维目的,并在很大程度上消除了向量空 间模型特征项之间的相关性。 文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡 献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子 实验都表明,M—TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文 本集的表示性能。 关键词:向量空间模型,词频倒排文档频,VSM,TFIDF。 A耠St}Ⅸ Vector aclassicmodelintexthfformation atextasa Model(VSM)is processing。Itexpresses Space vectorandusesthe ofindextermsasitscharacteristics.Thisframework the weights primelyimproves normalizedTerm ofinformation functionof Document efficiency processing.The Frequency&Inverse of usedto the indextermsinVSM. weights Frequency(TFIDF)iswidely compute showthatVSMisnota model.Oneofitsobvious isthatit Studies perfect objectionssupposes variables.This cause indextermsasuncorrelated will lossorredundanceofinformation probably using VSMto texts.Besides,thefunctionofTFIDFalsoroilsshortof function express precision.Thissimply aindextermis relatedtothenumberofdocumentsinwhichtheterm the of inversely supposesweight appears,butitrarely This usestoolsofChineseinformation toextractwordsfromChinese

文档评论(0)

1亿VIP精品文档

相关文档