- 7
- 0
- 约6.18万字
- 约 49页
- 2018-06-08 发布于贵州
- 举报
关于词频倒排文档频公式的改正
摘要
向量空间模型“sM)是文本信息处理的经舆模型,它把文本用向量表示,以特征项的权值作
为分量,这个架构很大程度上提高了信息处理的性能。模型中广泛用到的计算特征项权值的公式
是标准化的词频倒排文档频(TFIDF)公式。
研究发现,向量空间模型并不是一个完善的模型,其最大的缺陷是假设特征项之间是相互独
立的。这使得用向量空间模型表示文本集时,很可能造成信息遗漏或冗余。此外TFIDF公式同样
不够准确,它简单地认为特征项权值与包含该特征项的文档数成反比,而没有考虑特征项分布的
比例情况。
本文使用中文信息处理工具从中文文本集中抽取词条,并通过知网系统把词条空间映射到概
念空间。用概念代替词条作为特征项的方法间接达到了降维目的,并在很大程度上消除了向量空
间模型特征项之间的相关性。
文本的一个主要研究内容是对TFIDF公式进行修正。基于分布比例高的特征项具有较高的贡
献度和特征项在文本集中分布越离散则代表性越强这两方面的考虑,本文构造了一个平衡因子
实验都表明,M—TFIDF公式保留了TFIDF公式的优点并弥补了其缺陷,提高了向量空间模型对文
本集的表示性能。
关键词:向量空间模型,词频倒排文档频,VSM,TFIDF。
A耠St}Ⅸ
Vector aclassicmodelintexthfformation atextasa
Model(VSM)is processing。Itexpresses
Space
vectorandusesthe ofindextermsasitscharacteristics.Thisframework the
weights primelyimproves
normalizedTerm
ofinformation functionof Document
efficiency processing.The Frequency&Inverse
of
usedto the indextermsinVSM.
weights
Frequency(TFIDF)iswidely compute
showthatVSMisnota model.Oneofitsobvious isthatit
Studies perfect objectionssupposes
variables.This cause
indextermsasuncorrelated will lossorredundanceofinformation
probably using
VSMto texts.Besides,thefunctionofTFIDFalsoroilsshortof function
express precision.Thissimply
aindextermis relatedtothenumberofdocumentsinwhichtheterm
the of inversely
supposesweight
appears,butitrarely
This usestoolsofChineseinformation toextractwordsfromChinese
您可能关注的文档
最近下载
- 中班(4—5岁)孩子学习与发展指南.docx VIP
- 2023市政公用工程最高质量水平评价实体质量核查要点 (11.城市桥梁工程).docx
- 2026 年人教版高一化学上册期末质量检测试卷(附答案可下载).docx VIP
- 轴流风机技术规范.DOC VIP
- 2023市政公用工程最高质量水平评价实体质量核查要点(13.城市隧道工程).docx
- 乳腺癌诊疗指南(2022年版).pdf VIP
- 2023最高质量水平评价实体质量核查要点(1.通用部分).doc VIP
- 2022CSCO乳腺癌诊疗指南.pdf VIP
- 市政工程最高质量水平评价申报注意事项.docx VIP
- 高中数学公式大全--(图片版).docx VIP
原创力文档

文档评论(0)