第12章文本挖掘.pptVIP

  • 5
  • 0
  • 约 22页
  • 2016-11-27 发布于广东
  • 举报
第12章文本挖掘.ppt

数据仓库与数据挖掘 第12章 文本挖掘 在浩瀚的文本中找到所需信息。 第12章 文本挖掘 12.1 引例 12.2 文本挖掘 12.1 引例 乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌[文本3] 前三段文本中哪两段文本在内容上更接近? 如果前两段文本各代表一类文本,那么,你认为第三个文本应该归为其中的哪一类? 12.2 文本挖掘 12.2.1 文本信息检索概述 12.2.2 基于关键字的关联分析 12.2.3 文档自动聚类 12.2.4 文档自动分类 12.2.5 自动摘要 12.2.1 文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息。 信息检索是一种不确定性检索,用户在检索信息时,并不知道信息源里是否有符合需要的东西。 1. 信息检索的度量方式 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 2. 基于模型的检索 模型的种类: 布尔模型:文档和查询式都表示为特征项的集合,运用集合

文档评论(0)

1亿VIP精品文档

相关文档