案例二十 基于词表的词频统计.pptVIP

  • 5
  • 0
  • 约1.87千字
  • 约 38页
  • 2016-12-20 发布于重庆
  • 举报
案例二十 基于词表的词频统计 本案例知识要点 链表的使用 文件操作 哈希表的使用 快速排序法 类的设计和使用 一、案例需求 案例描述 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域中都有重要的应用。例如在中文搜索引擎(如Google、百度)中,除特别常用的词以外,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行归类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的次数。 案例效果图 本案例需要一个待统计文本文件,如图所示。 待统计文本文件 本案例需一个词表文件,如图所示。 本案例最终统计出每个词在文本中出现的次数。运行效果如图所示。 本案例最终统计出的结果保存在文件out.txt中。效果如图所示。 功能说明 (1)本案例需要一个文本和一个词表,统计出每个词在文本中出现的次数。统计的原则包括以下两种: 交集型。例如“内存在涨价”,需要统计“内存”和“存在”两个词各一次(假设这两个词都在词表中)。 组合型。例如“中美关系在发展”,需要统计“中美”、“关系”和“中美关系”(假设这3个词都在词表中)。 文本和词表的格式如下: 文本是一个长句,句中只包含汉字,不包含数字、标点、空格、回车以及其他任何特殊符号。文本规模小于或等于50 000汉字。 词表的规模小于或等于10

文档评论(0)

1亿VIP精品文档

相关文档