- 6
- 0
- 约1.87千字
- 约 38页
- 2016-12-26 发布于贵州
- 举报
案例二十 基于词表的词频统计 本案例知识要点 链表的使用 文件操作 哈希表的使用 快速排序法 类的设计和使用 一、案例需求 案例描述 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。 案例效果图 本案例需要一个待统计文本文件,如图所示。 待统计文本文件 本案例需一个词表文件,如图所示。 本案例最终统计出每个词在文本中出现的次数。运行效果如图所示。 本案例最终统计出的结果保存在文件out.txt中。效果如图所示。 功能说明 (1)本案例需要一个文本和一个词表,统计出每个词在文本中出现的次数。统计的原则包括以下两种: 交集型。例如“内存在涨价”,需要统计“内存”和“存在”两个词各一次(假设这两个词都在词表中)。 组合型。例如“中美关系在发展”,需要统计“中美”、“关系”和“中美关系”(假设这3个词都在词表中)。 文本和词表的格式如下: 文本是一个长句,句中只包含汉字,不包含数字、标点、空格、回车以及其他任何特殊符号。文本规模小于或等于50 000汉字。 词表的规模小于或等于10
您可能关注的文档
最近下载
- DL_T 2045-2019CN中性点不接地系统铁磁谐振防治技术导则.pdf
- 危险化学品泄露事故应急救援演练方案脚本(含解说词).docx VIP
- AWS D1.2_D1.2M-2014铝结构焊接规范(中文版).doc VIP
- 桥梁防洪评价报告.doc VIP
- 郑州大学材料工程学院教学楼方案设计计算书可提供完整设计图纸】.doc VIP
- (最新!)检测实验室GBT27025+评审准则(2023版)两份内审检查表实例.pdf VIP
- 不同导叶参数对混流泵水力性能的影响.pdf VIP
- 2_东华测试传感器产品选型手册-202302.pdf VIP
- 国际贸易区域经贸合作与流通促进关键技术及应用示范工程.DOC VIP
- 租树割松脂合同6篇.docx VIP
原创力文档

文档评论(0)