- 7
- 0
- 约 38页
- 2017-02-28 发布于四川
- 举报
案例二十基于词表的词频统计
案例二十 基于词表的词频统计 本案例知识要点 链表的使用 文件操作 哈希表的使用 快速排序法 类的设计和使用 一、案例需求 案例描述 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。 案例效果图 本案例需要一个待统计文本文件,如图所示。 待统计文本文件 本案例需一个词表文件,如图所示。 本案例最终统计出每个词在文本中出现的次数。运行效果如图所示。 本案例最终统计出的结果保存在文件out.txt中。效果如图所示。 功能说明 (1)本案例需要一个文本和一个词表,统计出每个词在文本中出现的次数。统计的原则包括以下两种: 交集型。例如“内存在涨价”,需要统计“内存”和“存在”两个词各一次(假设这两个词都在词表中)。 组合型。例如“中美关系在发展”,需要统计“中美”、“关系”和“中美关系”(假设这3个词都在词表中)。 文本和词表的格式如下: 文本是一个长句,句中只包含汉字,不包含数字、标点、空格、回车以及其他任何特殊符号。文本规模小于或等于50 000汉字。 词表的规模小于或等于10
您可能关注的文档
- 智能体验店的标准化建设.ppt
- 2012——2013学年高二寒假作业(语数外)答案.doc
- 最感动高中生的一百个哲理故事.ppt
- 最新公司管理毕业论文的写作与指导.ppt
- 最新抓拍行人闯红灯系统原理及使用方法.ppt
- 智能温湿度压力气体液位无线监测和控制系统的八大常用解决方案.ppt
- 最新流行的毛毛匠手工DIY及发展远景.ppt
- 有关创意的有意思的搞笑图片.ppt
- 最全的POP广告手写字体学习.ppt
- 期货系统交易模式的构建.ppt
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试物理(文)试题 含答案.doc
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试物理(理)试题 含答案.doc
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试生物(理)试题 含答案.doc
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试生物(文)试题 含答案.doc
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试英语试题 含答案.doc
- 甘肃省天水市第三中学2016-2017学年高二10月学段考试语文试题 含答案.doc
- 甘肃省天水市第三中学2016届高三上学期第三次检测考试化学(实验班)试题 含答案.doc
- 甘肃省天水市第三中学2016届高三上学期第三次检测考试化学(实验班)试题 含答案_1.doc
- 甘肃省天水市第三中学2016届高三上学期第三次检测考试化学(快班)试题 无答案.doc
- 甘肃省天水市第三中学2016届高三上学期第三次检测考试历史试题 含答案.doc
原创力文档

文档评论(0)