- 5
- 0
- 约1.87千字
- 约 38页
- 2016-12-20 发布于重庆
- 举报
案例二十 基于词表的词频统计 本案例知识要点 链表的使用 文件操作 哈希表的使用 快速排序法 类的设计和使用 一、案例需求 案例描述 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。 案例效果图 本案例需要一个待统计文本文件,如图所示。 待统计文本文件 本案例需一个词表文件,如图所示。 本案例最终统计出每个词在文本中出现的次数。运行效果如图所示。 本案例最终统计出的结果保存在文件out.txt中。效果如图所示。 功能说明 (1)本案例需要一个文本和一个词表,统计出每个词在文本中出现的次数。统计的原则包括以下两种: 交集型。例如“内存在涨价”,需要统计“内存”和“存在”两个词各一次(假设这两个词都在词表中)。 组合型。例如“中美关系在发展”,需要统计“中美”、“关系”和“中美关系”(假设这3个词都在词表中)。 文本和词表的格式如下: 文本是一个长句,句中只包含汉字,不包含数字、标点、空格、回车以及其他任何特殊符号。文本规模小于或等于50 000汉字。 词表的规模小于或等于10
您可能关注的文档
- 脾脏解剖及超声基本扫查.ppt
- 腰椎间盘突出症的诊断鉴别诊断与分型.ppt
- 腰椎影像解剖学.ppt
- 腾飞的交通运输业.ppt
- 案例19希尔顿与itt公司之战——设定收购的竞价策略.doc
- 案例-纽约泪珠公园.ppt
- 案例32AMR公司权益转换为债权的案例.ppt
- 案例2某县税收征收管理审计(免费阅读).ppt
- 案例2调整干线网络(阅读).doc
- 案例3金桥公司比率分析.doc
- 2026《岳阳林纸中高层领导力现状、问题及对策》9200字.doc
- 2026《云南白药内部控制中存在的问题及对策研究》6500字 .doc
- 2026《云南水富云天化企业所得税会计研究》8800字 .doc
- 2026《长赐轮事件中的各类损失及海上保险问题分析》4200字.docx
- 2026《直播带货发展背景下企业品牌价值评估研究的相关理论文献研究综述》6100字.docx
- 6 怎么都快乐 课件-2025-2026学年语文一年级下册统编版.pptx
- 2026《旬邑彩贴剪纸保护与传承研究的文献综述》3300字.docx
- 2026《伊春光明集团薪酬管理改进调研报告》6000字.doc
- 《变现金句1000条》番外篇.pdf
- 第8课《时间的脚印》课件(内嵌视频)-2025-2026学年统编版语文八年级下册.pptx
原创力文档

文档评论(0)