- 3
- 0
- 约3.69千字
- 约 32页
- 2017-09-05 发布于江苏
- 举报
数据仓库与数据挖掘 第12章 文本和Web挖掘 12.1 引例 乒乓球女团中国夺冠,第33金超越雅典奥运创造历史[文本1] 神舟六号轨道舱正常运行60天取得大量科学数据[文本2] 乒乓男单决赛颁奖 中国三虎将包揽金银铜牌[文本3] 12.2.1 文本信息检索概述 信息检索泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程,人们借助某种检索工具,运用某种特定的检索策略从待检索的信息源中查找出自己需要的信息. 1. 信息检索的度量方式 2. 基于模型的检索 3. 基于相似性的检索 4. 文档间相似性计算举例 1. 信息检索的度量方式 查准率(Precision)是检索到的文档中的相关文档占全部检索到的文档的百分比,它所衡量的是检索系统的准确性 查全率(Recall)是被检索出的文档中的相关文档占全部相关文档的百分比,它所衡量的是检索系统的全面性 2. 基于模型的检索 布尔模型:将用户提问表示成布尔表达式,查询式是由用户提问和操作符and、or、not组成的表达式 向量空间模型:有一特征表示集,特征通常为字或词。用户提问与文本表示成高维空间向量,其中每一维为一特征。每个特征用权值表示。用户提问向量的权值由用户制定 概率模型。富有代表性的模型是二值独立检索模型(BIR)。BIR模型根据用户的查询Q,可以将所有文档d分为两类,一类与查询相关(集合R),另一类与查询不相关(集合
您可能关注的文档
- (全)185埃森哲-关于中国铝业上市公司总体薪酬激励体系设计的初步建议.ppt
- 第3章 销售渠道.pdf
- 《金属建材成型工艺》实验指导书2.doc
- 《经济研究》 魏刚 高级管理层激励与上市公司经营绩效.pdf
- 《深度分销》实战培训1.doc
- 1 材料的力学性能.ppt
- 001 绪论 - 2012.ppt
- 01-第1章 数据库技术.ppt
- 第4章 IIR 滤波器设计.ppt
- 第4章 智能仪器的基本数据处理算法1.ppt
- 新疆塔城地区第一高级中学2025-2026学年高一下学期学情自测物理试卷(含解析).docx
- 苏教版五年级上册数学 期中检测卷.doc
- 新疆维吾尔自治区昌吉回族自治州呼图壁县2025-2026学年九年级上学期1月期末英语试题(含解析).docx
- 新疆维吾尔自治区和田地区和田市2025-2026学年上学期八年级英语期末试卷(含解析).docx
- 四川省绵阳市游仙区2025-2026学年七年级上学期1月期末英语试题(含解析).docx
- 苏教版三年级上册数学 第三单元测试题.doc
- 四川省绵阳市梓潼县2025-2026学年八年级上学期1月期末物理试题(含解析).docx
- 四川省绵阳市盐亭县四校联考2025-2026学年八年级下学期物理学情自测(含解析).docx
- 房颤患者太极拳练习.pptx
- 苏教版五年级上册数学 期末检测卷.doc
原创力文档

文档评论(0)