文本案例相似度计算方法.docVIP

  • 37
  • 0
  • 约7.22千字
  • 约 11页
  • 2019-12-02 发布于江西
  • 举报
文本案例相似度计算方法 西北大学(自然科学版) 2010年12月,第4O卷第6期,Dec.,2010,Vo1.40,No.6 JournalofNorthwestUniversity(NaturalScienceEdition) 文本案例相似度计算方法 赵晓慧,吴江,董红妮,李彦粉,袁小蛟,张文明 (西北大学信息科学与技术学院,陕西西安710127) 摘要:目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准 确度的缺点,提出新的文本案例相似度计算方法.方法将文本表示粒度由词提高到句子,加入词 序信息.结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法.结论这种 方法更符合人类理解的模式,提高了文本案例相似度计算的准确度. 关键词:句子向量空间模型;词序;相似度;文本案例分类;满意度 中图分类号:TP391文献标识码:A文章编号:1000—274X(2010)06-0991-04 Researchontextualcasesimilarityalgorithm ZHAOXiao—hui,WUJiang,DONGHong—ni,LIYan—fen, YUANXiao-iiao.ZHANGWen—ming (CollegeofInformationScienceandTechnology,NorthwestUniversity,Xian710127,China) Abstract:AimThetraditionalalgorithmbasedonvectorspacemodelactuallyneglectsthewordorderandstruc. tureinsentences,whichwillaffecttheaccuracyofsimilaritycomputing.Sothispaperproposedanewtextualcase similarityalgorithm.MethodsThesentence,ratherthantheword,wasusedastheunitandthewordorderinfor— mationwasconsidered,sentencevectorspacemodelwasproposed,whichisthebaseoftextualcasesimilarityalgo— rithm.ResultsThemethodismoreconsistentwiththemodeofhumanunderstandingandimprovestheaccuracyof textualcasesimilaritycompatation.ConclusionTheapplicationintextualcaseclassificationprovesthatthemeth— odisfeasible. Keywords:sentencevectorspacemodel;wordorder;similarity;textualcaseclassification;satisfactiondegree 文本案例的表示是文本案例间相似度计算比较 的基础,现今的文本表示及处理技术大多是以词为 单位且基于向量空间模型的方法,该方法不考虑词 在文本中出现的顺序,损失了大量的文本结构信息, 导致计算出来的相似度不能很好地反映人们对文章 的理解¨.因此,以句子为单位来表示和处理文 本的方法被提出,并成为一个重要的研究方向.文 献[4]提出在句子相似度计算时通过关键词抽取, 扩充同义词典和加大名词,动词在句子中的重要性 提高了计算准确度.文献[5]提出在句子相似度计 算过程中加入对句子中相同词性和同义词的统计, 根据句子间相似度删除自动摘要中的冗余使之更为 流畅,提高了自动中文文本摘要的质量.文献[6] 提出了以句子为单位来表示文档,用文本中旬子的 贡献度判断文本类别,与词粒度下的向量空间模型 分类相比分类效果明显提高.分析上述文献研究结 果可见,基于句子计算文本相似度确实有一定的优 势. 分析基于句子计算相似度的优势,以及词序在 句子相似度计算中的重要性(如屡战屡败与屡 败屡战词序不同意思完全不同),提出句子向量空 间模型及基于该模型的文本案例相似度算法,将表 示粒度从词提高到句子,加入词序信息来提高计算 准确度.将基于句子向量空间模型的文本案例相似 度算法应用到案例分类中,采用从不同层次观察问 题的策略将案例分类过程分为粗分类和细分类.本 收稿日期:2009-03—11 基金项目:西北大学科研启动基金资助项目(PR08067);西北大学研究生自主创新基金资助项目(08YZZ35) 作者简介:赵晓慧,女,山西交城县人,从事智能信息处理研究. ..—— 992————西北

文档评论(0)

1亿VIP精品文档

相关文档