- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 绪论
李茂西李茂西
jxnuir@
信息检索的概念和处理对象信息检索的概念和处理对象
• 概念概念
概括地说,信息检索就是从非结构化的信息集
合中找出与合中找出与用户户需求相关的信息求相关的信息。相应的相应的 ,信信
息检索系统就是用来实现信息检索功能的计算
机软件系统机软件系统。
• 处理对象
非结构化信息:没有明显清晰地语义结构。
现实实世界中界中存在着大量的非结构化信信息,除,除文
本外,还有图像、图形、语音、视频等多媒体
信息。
2011/11/13 江西师范大学计算机信息工程学院
信息检索系统的分类信息检索系统的分类
• 按按照处处理数据的规模数据的规模
以以Web搜索为代表的大规模级别搜索为代表的大规模级别
Google,Baidu,Yahoo等
小规模的信息检索系统小规模的信息检索系统
操作系统提供的检索
邮件系统提供的检索等邮件系统提供的检索等
中等规模的信息检索系统
面向企业面向企业、机构和特定领域的搜索机构和特定领域的搜索
2011/11/13 江西师范大学计算机信息工程学院
信息检索的基本流程信息检索的基本流程
• 数据采集数据采集 :检索系统的真实做法是先进行信息采集检索系统的真实做法是先进行信息采集 ,把信息源的信息把信息源的信息
拷贝到本地,构成待检索的信息集合。
• 数据预处理:对网上信息要进行必要的编码方式的转换或文档格式的
转换等转换等。同时同时,网上存在大量的垃圾页面网上存在大量的垃圾页面,需要清理需要清理 ,网页内还会有网页内还会有
导航条、广告等与内容无关的信息,也需要通过网页分析去除之,方
便后续处理。
• 信息加信息加工:信息加信息加工最主要的任务就是对采集到本地的信息编排索引最主要的任务就是对采集到本地的信息编排索引 ,
以便做好被查询的准备
• 用户检索:在信息采集与加工之后,就可以进入到用户能够参与到的
检索过程中了。用户输入查询式,可能是几个关键词的逻辑组合,可
能是自然语言的问句
• 相关反馈相关反馈 :信息检索系统接收该查询,转换为查询的机内表示形式,信息检索系统接收该查询,转换为查询的机内表示形式,
然后在索引表中快速搜索,找到与用户的需求最匹配的若干文档,按
照一定准则排序,将一部分结果返回给用户,请用户对系统返回的检
索结果进行浏览
2011/11/13 江西师范大学计算机信息工程学院
文档在计算机中的表示文档在计算机中的表示
• 一个字符串中找出子字符串个字符串中找出子字符串:线性扫描线性扫描
C/C++:Find函数
Perl,Python:=~正则表达式
Java:
Unix:grep
•• 信息检索系统信息检索系统
大规模文档集下快速查找
更加灵活的匹配方式更加灵活的匹配方式
需要对结果进行排序
2011/11/13 江西师范大学计算机信息工程学院
词项词项-文档关联矩阵文档关联矩阵
词项词项-文档关联矩阵,其中每行表示文档关联矩阵,其中每行表示一个词,每列表示个词,每列表示
一个莎士比亚全集的一个剧本,当词t在剧本中存在
时,矩阵(t,d)的值为1,否则为0
2011/11/13 江西师范大学计算机信息工程学院
词项词项-文档关联矩阵文档关联矩阵
• 词词项:是索引的单位索引的单位。
通常可以把词项当成词通常可以把词项当成词
但词项不一定是词,如HongKong,I-9等
• 本书:关联矩阵中行表示文档本书:关联矩阵中行表示文档 ,列表示词列表示词
项。
2011/11/13
文档评论(0)