- 2
- 0
- 约3.69千字
- 约 32页
- 2016-12-23 发布于重庆
- 举报
数据仓库与数据挖掘 第12章 文本和Web挖掘 12.1 引例 乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌[文本3] 12.2.1 文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息. 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例 1. 信息检索的度量方式 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 2. 基于模型的检索 布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式 向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定 概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合
您可能关注的文档
最近下载
- 2026年街道党校党员教育培训工作计划.docx VIP
- 某医院住院楼供配电系统课程设计.doc VIP
- (正式版)DB32∕T 4469-2023 《港口危险货物码头企业安全生产隐患排查治理规程》.docx VIP
- 北师大版小学六年级数学上册教案 全册.docx VIP
- 社会工作专业关系建立.ppt VIP
- AP微观经济学 2016年真题 (选择题+问答题) AP Microeconomics 2016 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 第四单元 第18课 排序计算有方法 教案 义务教育版(2024)信息科技四年级全一册.docx VIP
- 人教版(2024)七年级下册英语期中质量检测试卷(含答案).docx VIP
- 智能体育公园的规划设计与运营管理模式创新研究.docx VIP
- 毕业设计(论文)-哈尔滨市体育公园规划设计.docx VIP
原创力文档

文档评论(0)