04文本处理与信息检索1.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本处理与信息检索 第一讲 主要内容 1.引言 2. IR系统与DBMS技术的区别 3.自动文本文档索引和布尔检索模型 4.向量空间检索模型 5.概率检索模型 6.基于集群的检索模型 7.非传统的IR方法。 1 引言 信息检索定义 (Information Retrieval) 广义:是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关的信息过程。狭义:仅指该过程的后半部分,即从信息集合中找出所需要的信息的过程,相当于人们通常所说的信息查寻。 信息检索包括对文本、图形、视频、音频信息的检索。 1、文本信息检索技术,包括中英文文本的预处理、索引、相似匹配等 2、图形信息检索技术,包括图象的特征提取与建模、基于特征的相似检索等 3、视频信息检索技术,包括视频镜头分割、关键帧提取、人脸图象检索、相机运动分析等 4、音频信息检索技术,包括音频分析、特征分析、说话人识别、关键词识别与检索等。 本章专门讲述IR技术的文本文档索引和检索技术 信息检索技术 信息检索技术包括信息的分类、标引、检索、评价、反馈等过程。目前最前沿的信息检索技术包括以下几个方面:关键词检索、分类导航检索、同义词检索、聚类信息检索、截词检索、精确检索、字段检索、网站超链检索、库间跳转检索、多库同时检索、布尔检索、数字检索、二次检索(多次逼近检索)、自动分词、自然语言检索、定题检索、手机检索等。 2 IR系统与DBMS技术的区别 数据库管理系统 (DBMS) 数据库管理系统(DBMS)是专门用 于管理数据库的计算机系统软件。数据库 管理系统能够为数据库提供数据的定义、 建立、维护、查询和统计等操作功能,并 完成对数据完整性、安全性进行控制的功能。 IR系统与DBMS技术的区别 结构 匹配 检索效果 反馈系统 3 自动文本文档索引和布尔检索模型 3.1 基本的布尔检索模型 3.2 文件结构 3.3 条目操作和自动索引 3.4自动文档索引过程小结 信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组 D, Q, F, R(qi,dj) 其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值 3.1 基本的布尔检索模型 信息资源集合 索引词集合 权值 用户需求信息集合 布尔检索模型是一种简单的检索模型,它建立在经典集合论和布尔代数的基础上。 布尔模型的基本原理 在布尔检索模型中,将用户提问表示成布尔表达式,其中每一个用户提问词表达了用户的一个兴趣。如果该词在文本中出现,表明该文本满足用户兴趣,否则为不满足。如果某文本满足全部布尔表达式,则说明该文本与用户提问相匹配,系统则将此文本作为结果输出给用户。 布尔模型在检索处理过程中遵循 两条基本规则: 1.系统索引词集合中的每一个索引词在一篇文档中只有两种状态:出现或不出现。相应地,每个索引词的权值Wij﹛0,1﹜ 2.检索提问式q由三种布尔逻辑运算符and、or、not连接索引词来构成。 q=k1 and(k2 or not k3) q=(1,1,1)or(1,1,0)or(1,0,0) dj与q的匹配函数 如果存在qcc|( qccqdnf)且对于任意ki,有 gi(dj)= gi(qcc) 其他0 函数gi定义为 例 假设文档集合D中存在两篇文档d1,d 2,其中,d1含有索引词k1 和k2,d2含有索引词k1 和k3 文档向量为d1=(1,1,0) d2=(1,0,1) 文档d1与提问式的匹配函数值为1 文档d2与提问式的匹配函数值为0 3

文档评论(0)

1166629 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档