哈希表技术判别源程序的相似性实验报告.docx.docx

哈希表技术判别源程序的相似性实验报告.docx.docx

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
哈希表技术判别源程序的相似性实验报告.docx

一.问题描述实验题目:对于两个C 语言的源程序清单,用哈希表的方法分别统计两程序中使用C语言关键字的情况,并最终按定量的计算结果,得出两份源程序的相似性。要求与提示:C 语言关键字的哈希表可以自建,也可以采用下面的哈希函数作为参考:Hash(key)=(key第一个字符序号*100+key最后一个字符序号)%41 表长m取43。此题的工作主要是扫描给定的源程序,累计在每个源程序中C语言关键字出现的频度。为保证查找效率,建议自建哈希表的平均查找长度不大于2。扫描两个源程序所统计的所有关键字不同频度,可以得到两个向量。如下面简单的例子所示:根据程序1和程序2中关键字出现的频度,可提取到两个程序的特征向量X1和X2,其中X1=(4 3 0 4 3 0 7 0 0 2)TX2= (4 2 0 5 4 0 5 2 0 1)T一般情况下,可以通过计算向量Xi和Xj的相似值来判断对应两个程序的相似性,相似值的判别函数计算公式为:最后的相似性判别计算可分两步完成: 第一步用式(3-1)计算S,把接近1的保留,抛弃接近。的情况(把不相似的排除); 第二步对保留下来的特征向量,再用式(3-2)计算D,如D值也比较小,说明两者 对应的程序确实可能相似(慎重肯定相似的)。 S和D的值达到什么门限才能决定取舍?需要积累经验,选择合适的阑值。3)测试数据: 做儿个编译和运行都无误的C程序,程序之问有相近的和差别大的,用上述方法求S} 并对比差异程度。4)输入输出:输入为若干个c源程序,输出为程序问的相似度以及向量的几何距离。基本要求:建立哈希表,统计源程序中关键字出现的频度,并计算多个源程序之间的相似度。测试数据:自己在网上找到一些C语言程序,分别为test1.txt,test2.txt,test3.txt等。运行结果应为输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。二.需求分析1.本程序用来通过建立哈希表求源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。2.用户可以将源程序的.txt文件放入hashtable文件夹中,运行程序就可以输出每个源程序关键字的出现的频度和源程序之间的相似度以及向量的几何距离。三.概要设计为了实现上述功能,可以用结构体表示哈希表,因此需要哈希表的抽象数据类型。 哈希表抽象数据类型的定义: ADT hashtable{数据对象:D={ai|ai∈ElemType,且各不相同,i=1,2...,n,n≥0} 数据关系:R=φ基本操作:Hashfunc(char str[]); Hashfind(char *words); creathash(void); resethash(int n);isletter(char ch);readc(char * filename);getkey(char *str,int len);copycount(int x[],int n);check(int *x1, int *x2);}end ADT3.本程序实现模块主程序模块哈希表程序模块:实现哈希表的抽象数据类型调用关系:四.详细设计1.各个子函数的设计1)创建哈希表函数函数原型:void creathash(void);输入:读取存储了32个关键字的文件ckey.txt思路:通过对ckey.txt文件逐行赋值给创建的str字符数组,并将该数组调入Hashfunc函数。(2)将关键字根据哈希函数放入哈希表中的指定位置的函数函数原型:void Hashfunc(char str[]);思路:对调进来的str数组通过调用getkey函数得到该关键词的key值后放入哈希表中的特定位置,并用线性探索来解决冲突。(3)在哈希表中找是否该words为关键字,并统计频度的函数函数原型:int Hashfind(char *words);思路:将调进来的word字符数组先调用getkey函数获取key值,然后在哈希表里查找是否存在该字符串,如果存在则该关键字对应的频度加1.(4)重置哈希表函数函数原型:void resethash(int n);功能:当n为0时,将指向哈希表中关键字的指针置成Null,同时将频度全部置为0.而当n为1时,仅仅将频度置为0.(5)获取单词key的函数函数原型:int getkey(char *str,int len);思路:用key1存储关键字的首字母,key2存储关键字的末字母,然后通过哈希函数得到key的值并返回。(6)判断是否为字母的函数函数原型:int isletter(char ch);思路:如果调进来的ch字符的ASCII值在a~z或A~Z范围内的话则返回1,否则返回0.(7)读取源程

文档评论(0)

zhuwenmeijiale + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7065136142000003

1亿VIP精品文档

相关文档