基于哈希表的词统计.docVIP

  • 2
  • 0
  • 约1.39万字
  • 约 9页
  • 2016-10-09 发布于贵州
  • 举报
基于哈希表的词统计

? 本例可执行文件下载: ??下载 ? (?????????链表的使用 (?????????文件操作 (?????????哈希表的使用 (?????????快速排序法 (?????????类的设计和使用 一、案例需求 1.案例描述 词频统计就是统计一个句子或一篇文章中各种词出现的频率,它是中文信息处理的一项基本技术,在很多领域都有重要的应用。比如在中文搜索引擎(如:google,baidu)中,除去特别常用的词,一篇文章中出现频率较高的词通常能反映这篇文章的主题,因此可以使用词频来对中文文章进行文本聚类。本案例实现按词表对文章中的词语进行分析,并按字典序给出词表中各词语在文章中出现的频数。 2.案例效果图 (1)案例需要一个待统计文本文件,效果图如图20-3、20-4所示。 图20-1待统计文本文件内容 (2)本案例需一个词表文件,效果图如图20-2所示。 图20-2词表文件内容 (3)本案例最终统计出每个词在文本中出现的次数。运行结果如图20-3所示。 图20-3运行结果 (3)本案例最终统计出的结果保存在out.txt中。效果图如图20-4所示。 图20-4运行结果文件内容 3.功能说明 (1)本案例需要一个文本和一个词表,统计出每个词在文本中出现的次数。统计的原则包括以下两种: (??????交集型:如“内存在涨价”,需要统计“内存”和“存在”(假设

文档评论(0)

1亿VIP精品文档

相关文档