第12章 文本和Web挖掘.pptVIP

  • 3
  • 0
  • 约3.69千字
  • 约 32页
  • 2017-09-05 发布于江苏
  • 举报
数据仓库与数据挖掘 第12章 文本和Web挖掘 12.1 引例 乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌[文本3] 12.2.1 文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息. 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例 1. 信息检索的度量方式 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 2. 基于模型的检索 布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式 向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定 概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合

文档评论(0)

1亿VIP精品文档

相关文档