基于中文分词的文本相似度动态规划算法.pdfVIP

  • 32
  • 0
  • 约1.4万字
  • 约 4页
  • 2019-03-19 发布于广西
  • 举报

基于中文分词的文本相似度动态规划算法.pdf

2011年 4月 15日 现代电子技术 Apr.2011 第 34卷第 8期 ModernElectronicsTechnique Vo1.34NO.8 基于中文分词的文本相似度动态规划算法 肖 侃 ,谭长庚 ,丁 玲 (中南大学 软件学 院,湖南 长沙 410075) 摘 要 :针对传统的基于动态规划的对论文的文本相似度计算的不足 ,提 出了一种基于 中文分词和动态规划的论文文 本相似度计算方法 ,并对此进行 了讨论 。该方法克服 了一般基于动态规划的计算方法所具有 的效率低 ,判断准确率低的缺 点。通过对实际中的论文数据库 中论文进行测试和分析 ,该算法能提高计算准确率,并一定程度上提高 了运算速度 ,可 以应 用于论 文防抄袭 系统 中。 关键词 :文本相似度 ;动态规划 ;最长公共子序列;中文分词 中图分类号 :TN9l9—34 文献标识码 :A 文章编号 :1004—373X(2011)08—0072—03 Dynam icProgramm ingAlgorithm ofTextSim ilarityCalculationBasedon ChineseW ordSegm entation XIAO Kan,TAN Changgeng,DING Iing (SoftwareCollege。CentralSouthUniversity,Changsha410075,China) Abstract:A dynamicprogrammingalgorithm ofsimilaritycalculationofthesistextsbasedonChinesewordsegmentation anddynamicprogrammingareproposedanddiscussedtOovercomethedeficiencyofthosetraditionalalgorithms.Thisalgo— rithm solvedtheproblemsofinefficiencyandlow precisenessexistingintraditionaldynamicalgorithm s.Thetestingandanal— ysisforthethesesinarealthesisdatabaseprovethatthealgorithm canimprovethecalculationaccuracyandtheanalysisspeed insomedegree,andcanbeappliedtOtheThesisAnti—plagiarism System. Keywords:textsimilarity;dynamicprogramm ing;longestcommon subsequence;Chinesewordsegmentation 经过研究发现:对于论文中纯文本的相似度计算, 0 引 言 改进后的基于动态规划的方法能够较好的解决这一 问 在信息处理领域 ,利用计算机的强大的计算能力处 题。因此 ,本文提出利用动态规划的高效率 ,基于最长 理文本信息时,重复及相似内容的识别是一个 比较重要 公共子序列 (LCS)E9]算法来构建文本相似度计算方法。 的研究课题 ,它广泛应用于各种论文 的防抄袭检测、信 由于LCS算法 的时 间复杂度为 0( ),对于长度为 息监测 、信息检索分类、数据挖掘 、搜索引擎等系统 中。 10000字甚至更多字数 的论文进行 比对效率会相 当的 另外,在生物信息学 中的基

文档评论(0)

1亿VIP精品文档

相关文档