- 32
- 0
- 约1.4万字
- 约 4页
- 2019-03-19 发布于广西
- 举报
2011年 4月 15日 现代电子技术 Apr.2011
第 34卷第 8期 ModernElectronicsTechnique Vo1.34NO.8
基于中文分词的文本相似度动态规划算法
肖 侃 ,谭长庚 ,丁 玲
(中南大学 软件学 院,湖南 长沙 410075)
摘 要 :针对传统的基于动态规划的对论文的文本相似度计算的不足 ,提 出了一种基于 中文分词和动态规划的论文文
本相似度计算方法 ,并对此进行 了讨论 。该方法克服 了一般基于动态规划的计算方法所具有 的效率低 ,判断准确率低的缺
点。通过对实际中的论文数据库 中论文进行测试和分析 ,该算法能提高计算准确率,并一定程度上提高 了运算速度 ,可 以应
用于论 文防抄袭 系统 中。
关键词 :文本相似度 ;动态规划 ;最长公共子序列;中文分词
中图分类号 :TN9l9—34 文献标识码 :A 文章编号 :1004—373X(2011)08—0072—03
Dynam icProgramm ingAlgorithm ofTextSim ilarityCalculationBasedon
ChineseW ordSegm entation
XIAO Kan,TAN Changgeng,DING Iing
(SoftwareCollege。CentralSouthUniversity,Changsha410075,China)
Abstract:A dynamicprogrammingalgorithm ofsimilaritycalculationofthesistextsbasedonChinesewordsegmentation
anddynamicprogrammingareproposedanddiscussedtOovercomethedeficiencyofthosetraditionalalgorithms.Thisalgo—
rithm solvedtheproblemsofinefficiencyandlow precisenessexistingintraditionaldynamicalgorithm s.Thetestingandanal—
ysisforthethesesinarealthesisdatabaseprovethatthealgorithm canimprovethecalculationaccuracyandtheanalysisspeed
insomedegree,andcanbeappliedtOtheThesisAnti—plagiarism System.
Keywords:textsimilarity;dynamicprogramm ing;longestcommon subsequence;Chinesewordsegmentation
经过研究发现:对于论文中纯文本的相似度计算,
0 引 言
改进后的基于动态规划的方法能够较好的解决这一 问
在信息处理领域 ,利用计算机的强大的计算能力处 题。因此 ,本文提出利用动态规划的高效率 ,基于最长
理文本信息时,重复及相似内容的识别是一个 比较重要 公共子序列 (LCS)E9]算法来构建文本相似度计算方法。
的研究课题 ,它广泛应用于各种论文 的防抄袭检测、信 由于LCS算法 的时 间复杂度为 0( ),对于长度为
息监测 、信息检索分类、数据挖掘 、搜索引擎等系统 中。 10000字甚至更多字数 的论文进行 比对效率会相 当的
另外,在生物信息学 中的基
您可能关注的文档
- 基于ZigBee协议的无线传感器网络服务质量的探究.pdf
- 基于ZigBee技术的微纳卫星无线星地通信系统硬件设计与实现.pdf
- 基于Zigbee技术的无线智能照明控制系统.pdf
- 基于ZigBee技术的无线点餐系统设计.pdf
- 基于zigbee技术的无线遥控探测车控制系统设计.pdf
- 基于zigbee技术的电力无线传感温度监测系统的硬件设计与实现.pdf
- 基于ZigBee无线传感器网络的煤矿监测系统.pdf
- 基于ZigBee无线网络的室内温度监测系统.pdf
- 基于ZigBee无线网络的智能公交站系统.pdf
- 基于Zigbee无线网络的配网防误管理系统的探究与实践应用.pdf
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 数学物理方程讲解课后答案一二章--姜礼尚.pdf VIP
- 最新公路工程试验检测项目参数检验频率一览表资料.doc VIP
- 海南自贸港总体方案.pptx VIP
- 人教版小学语文一年级上册期末考试试题.pdf VIP
- 正步的行进与立定.doc
- 第3讲+走进新时代+课件《新时代中国特色社会主义思想学生读本(小学低年级)》.ppt VIP
- 2025-2026粤教粤科版(2024)科学二年级上册教学设计(附目录) .pdf
- 横纹肌溶解症--精品课件.ppt VIP
- 【9历一模】2025年安徽省蚌埠市五河县中考一模历史试题(含解析).pdf VIP
- 精品解析:2024-2025学年山东省济南市高新技术产业开发区人教版四年级上册期末考试数学试卷(原卷版).docx VIP
原创力文档

文档评论(0)