- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于LCS和GST算法的代码相似度分析.doc
基于LCS和GST算法的代码相似度分析
摘 要 从上世纪70年代开始,就有大批的学者进行了代码相似度的研究。通过研究前任的方法,我们提出了通过最长公共子序列和贪婪串匹配的方法进行计算预处理之后的代码的相似度,预处理剔除了注释和预编译指令,并把代码转换为单词串,从而保留了程序的结构这一重要属性,使得大大提升了结果的准确性,使得结果更具有参考意义。
【关键词】代码相似度分析 最长公共子序列 贪婪字符串匹配
1 研究背景和意义
在现代的计算机专业的教学中,实践占据着越来越重要的作用。编码题目在计算机专业日常作业和考试中占据着越来越多的比重,但是这也加重了老师的负担。而代码相似度分析会对老师在判题的过程中提供一个重要的参考。本课题研究主要通过对代码的处理以及一些算法,来实现一个完整的代码相似度分析的一种方法。
1990年,Komondoor和Horwitz提出的使用程序切片技术进行检测。通过构造出程序依赖图PDG (Program Dependence Graph), 然后是用文本比较方法,找到相似重复的子句。1992年,B.S. Baker 通过将源代码的函数名称、变量、常量、类型等各种标识符 (identifier) 转换为参数化特征 (Parameterized Symbols) 而提出了基于Parameterized Matching的重复代码检测工具DUP,用于实现同一文件的比较。1994年,Alex Aiken在Berkeley开发了MOSS (Measure of Software Similarity), 用来识别C, C++, Java, Pascal, Ada, ML, Lisp或Scheme等编制的源程序的相似度。1998年,D.Baxer等提出了基于抽象语法数 (Abstract Syntax Tree) 的重复代码检测技术。这种检测技术针对C语言程序进行语法解析,建立起完整的语法树,随后应用三种算法进行重复代码检测。
2 过程与方法
2.1 预处理
由于源程序中有很多会影响结果的字符串,比如输入输出函数,printf(“abcd”);和printf(“njdms”);对源程序来说是变动性很大的因素,注释,空格等添加修改对源程序的逻辑没有任何影响,为了排除这些冗余的字符串,所以在匹配之前要去除这些字符串,预处理的程度对结果的影响是重要因素之一。
预处理的步骤如下:
(1)对输入的源程序进行冗余预处理,即为了保证检测准确度,去除代码中的注释、输入输出语句如scanf等。
(2)对代码进行分词处理,主要的处理就是将i+1类似形式的单词串用空格分隔为i + 1,以减小误匹配。
(3)将字符串转换为单词串,由于要考虑到程序的结构问题,单独的对字符串进行相似性的匹配,由于缺少程序结构,所以效果差强人意。如果可以对有语。言意义的单词进行语句式匹配,则可以增加其准确度。
2.2 相似性检测
2.2.1 最长公共子序列 (Longest Common Subsequence, LCS)
LCS算法是将两个给定字符串分别删去零个或者多个字符,但不改变剩余字符的顺序后得到的长度最长的相同字符序列。采用自上而下的地推法来计算公共子串的长度,算法的运行步骤如下:
(1)得到字符串strA的长度lengthA与字符串strB的长度lengthB,如果lengthA==0 || lengthB==0则LCS长度为0。如果lengthA≠0且lengthB≠0,则构造一个(lengthB+1)×(lengthA+1)大小的矩阵matrix。
(2) 将matrix矩阵的第一行与第一列全部置为0,即matrixi,0=0,matrix0,j=0,0≤i≤lengthA,0≤j≤lengthB。
(3)初始化matrix,置
(1)
0≤i≤lengthA,0≤j≤lengthB
(4)对矩阵matrix自上而下,每一行从左到右按照式(1)要求最终求出matrixi,j。
矩阵matrix中的最大值就是最长公共子串的长度,用LCS来表示。
2.2.2 贪婪串匹配算法 (Greedy String Tiling, GST)
(1)GST算法是一种贪婪的算法,最早被澳大利亚悉尼大学的Michael Wise设计。在给出GST伪代码之前需要先明确两个基本的概念。
(2)最大匹配(Maximal-Match)是指在匹配过程中,模式串中从i处开始的子串Pi与文本串中从j处开始的子串Ti的最长可能匹配。
最小匹配长度(Minimun-Match-Length,MML)用来设定匹配所允许的最小长度
原创力文档


文档评论(0)