- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于单链表和散列表比较的词频统计研究
摘要:针对操作系统课程中的词频统计实验,介绍两种分别采用单链表和散列表进行词频统计的方法,并着重说明后一种方法在效率方面的优越性。
关键词:单链表;散列表;词频统计;效率
在操作系统课程中,词频统计实验具有重要的理论价值和实用价值,一直受到广大师生的重视。该实验要求编写程序,读取一个文件,对该文件中的英文文章进行词频统计,并把统计结果存放到另一个文件中。程序的功能并不复杂,大多数学生都能完成,但是程序的效率往往不尽如人意。采用单链表和散列表进行词频统计都是该实验常用的方法。从效率方面来看,后一种方法明显优于前一种方法。
1采用单链表进行词频统计
1.1概述
在该实验中,大多数学生采用单链表进行词频统计。这种方法简洁明了,易于理解,但是程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词,这就大大降低了程序的效率。下面通过程序流程图和部分代码来说明采用单链表进行词频统计的具体过程。
1.2解决方案
1.2.1数据结构
由于程序最后要输出各单词及其出现的次数,因此要声明一个结构体类型。分别使用char型数组和int型变量存储单词及其出现的次数。这样在输出统计结果时,只要遍历单链表即可。
typedef struct wordNode
{
char word[length];
int iWordCount;
wordNode *pNext;
} wordNode;
1.2.2程序流程图
程序每次从文件中读取一个单词,删除该单词末尾可能带有的标点符号后,在单链表中顺序查找该单词。如果查找到该单词,那么把该单词出现的次数加1,不再继续查找。如果没有查找到该单词,那么把该单词插入到单链表的尾部,并把该单词出现的次数置1。等到文件中的所有单词都处理完毕后,输出统计结果。程序流程图如图1所示。
1.2.3处理单词细节
按照英文书写习惯,标点符号一般紧跟在前一个单词之后。当程序从文件中读取一个单词时,由于一旦遇到空格或换行即认为单词读取完毕,因此会出现单词和标点符号一并读取的情况。所以要定义一个函数Clip(),删除单词末尾的标点符号。对读取的单词,要判断最后一个字符是否为字母,若不是字母则将其删除。不过单词末尾的标点符号也存在一些特殊情况。例如,“a.m.”和“Mr.”等是特定的缩写,最后的“.”不能删除;“students’”最后的“’”表示复数所有格,也不能删除。以下是函数Clip()的具体代码,对有些特殊情况无法一一列举,这也是该函数不完善之处。
void Clip(char *current)
{
int i;
i = strlen(current);
if (!strcmp(current, “a.m.”)) return;
else if (!strcmp(current, “Dr.”))
return;
else if (!strcmp(current, “Mr.”))
return;
else if (!strcmp(current, “Mrs.”))
return;
else if (!strcmp(current, “Ms.”))
return;
else if (!strcmp(current, “p.m.”))
return;
else if ((!isalpha(current[i - 1])) (current[i - 1] != ‘\’’))
{
current[i - 1] = ‘\0’;
}
}
此外,当某个单词出现在句首和句中时,首字母有大小写之分,这会导致使用函数strcmp()判断它们是否相同时,把它们误判为不相同。所以要定义一个函数Change(),把单词中的大写字母转化为小写字母,以消除由于大小写不一致而导致的误判。以下是函数Change()的具体代码。
void Change(char *current)
{
for (; *current != ‘\0’; current++)
{
if ((*current = ‘A’) (*current = ‘Z’))
{
*current += 32;
}
}
}
1.3分析
采用单链表进行词频统计的主要操作是在单链表中进行顺序查找和在单链表尾部进行插入。程序每次从文件中读取一个单词后,都要在单链表中顺序查找该单词。反复在单链表中进行顺序查找,会大大降低程序的效率。以一篇300词的英文文章为例,在最坏情况下,即300个单词都不一样,单词之间所进行的比较次数达到0 + 1 + 2 + … + 298 + 299 = 44850。在该实验中,发现大多数学生使用短篇英文文章来测试程序,所以虽然程序的效率较低,但是在运行时间上体现得并不十分明显。若使用10M大小的英文文章来测试程序,则运行时间会长达半
您可能关注的文档
- 线性FIR滤波器的最优化方法.pdf
- 画廊的实践报告.doc
- 太极拳教案完整版.doc
- 社区地推活动方案.docx
- 基于单片机的水位控制系统设计..doc
- 日语课程标准.doc
- 控辍保学方案.doc
- 六年级音乐考试试题1.doc
- 关于青少年犯罪情况的调查报告.doc
- 衢州学院中小学教师培训质量管理规定(试行).doc
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)