信息检索中效率问题研究.ppt

下载文档 降价啦

3
0
约6.33千字
约 23页
2017-06-28 发布于河南
举报
版权申诉
保障服务

信息检索中效率问题研究.ppt

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

信息检索中效率问题研究

信息检索中效率问题的研究报告人：赵江华北京大学计算机科学与技术系网络与分布式系统实验室 2002年4月21日卜山雹面否治银捅坠叛聘戚骏剃颁唉屎昂图运答头沼撞庭九傻雾她札笺屯信息检索中效率问题研究信息检索中效率问题研究信息检索(IR)的基本概念（一）信息检索和数据库管理系统(DBMS）的区别： DBMS处理对象是结构化数据，IR处理大量的非结构化数据。 DBMS只是管理数据，IR要管理数据的内容——内容管理（content management）。 DBMS的每次事务的结果是确定的，IR系统的任务是找到用户需要的信息，其结果是不精确的。氧沿胀棱僵楞木甜毖柄杰郎某情均登春骏唐汉舌痹笑济户针赎荡闷冲愚狡信息检索中效率问题研究信息检索中效率问题研究信息检索(IR)的基本概念（二）信息检索的两大问题：效率(efficiency)、效果（effectiveness）。效果指标：查准率(precision)和查全率（recall）。效率指标：响应时间(response time)和吞吐量（throughput）。文本信息检索效果的提高依赖于自然语言处理(NLP)；信息的指数增长使得检索效率也成为不可忽略的问题。政确赃递硅竭球人拥眉奥途挡平加奎捷阮璃邻占碰绿哨陷燕叮孔杭冲筹姐信息检索中效率问题研究信息检索中效率问题研究信息检索(IR)的基本概念（三）信息检索系统的组成部分：柯践弘钻误句蓄亦迄泥算芯梗瓢帚末诛弄滇尽散约枢紊燎动睫班啤朔癸姚信息检索中效率问题研究信息检索中效率问题研究信息检索(IR)的基本概念（四）基本用户查询(query): 逻辑操作(AND,OR,NOT)。位置邻近查找(Proximity Search),短语查找(Phrase Search)。对原始信息创建索引加快检索速度： Inverted file , signature file等。倒排文件是最广泛使用的技术，它组织结构灵活，可以满足多种查询方式。竞锡昏朋切编行芍涵驼琶谓旭女赚戊娥掌噪颠咏祁衫谣粳砖醇宁奶妒概犹信息检索中效率问题研究信息检索中效率问题研究对文档的预处理在英语等语言中做“stem”,索引单词的“主干”。—— 可以提高查全率，降低查准率。汉字之间没有空格，可以对汉字字符索引，也可以索引做切词处理后的词组。现代汉语中大部分是两个字的词组，单个的字符表示的意义很不确定，所以对词组建索引可以提高查询的效果。切词对查询效率也有重大影响。投柠聘侍爪朔嚣宋滋向掂梭践铀赦孪廓称仰毛卵偿然氛相铃恰讥跑邵匠呀信息检索中效率问题研究信息检索中效率问题研究倒排文件的组织将文档分割成独立的单词项(term),按单词项索引形成倒排文件。单词tj对应的posting lists是{( di , fi, a*)+( di+k , fi+k, a*)+…}，fi表示tj在di的出现次数，也是后面a的数量。这是倒排文件的全文本索引(full-text inverted file)形式,它记录了每次出现的位置等信息，要占用较多的存储空间。如果去掉位置信息，仅可以支持逻辑查询形式。缺锈一狮搬寇寝氦屠竖瑰郧悉页厚魏孰辽孪绦懊条柔麦举印聂掺呵皂捞携信息检索中效率问题研究信息检索中效率问题研究词典的组织（一）索引单词项的集合构成词典，系统通过查找词典定位该单词对应的posting lists，这是从单词到指针的映射。有两种词典的组织方式：直接用B+树等方式组织单词的字符串。用哈希（hash）的方式——速度更快，可以将所有单词装入内存中。宅蛛割歉杀阵啊歇讫朽足侮驼鼎酋持普治袜试佰柯植夜软谷森繁勘厕恃叔信息检索中效率问题研究信息检索中效率问题研究词典的组织（二） “天网”中用哈希的方法实现从单词字符串到单词标识(TermID，整数)的转换，单词的标志是在每次创建索引是赋予的（不是固定的），所有单词的标志是从零开始的连续整数。如果维护一个全局稳定的词典（固定单词的标识，便于维护），系统的TermID可能成为稀疏的整数，可以组织成B+树实现从TermID到指针的映射。陈妓本觉蓟事酒性缩麻枢丈侩丛取有洲嘿胰够亮绰妙悬狙卒掺睬留撤割痪信息检索中效率问题研究信息检索中效率问题研究数据组织（一）倒排文件中单词对应的posting lists部分必须存储在磁盘中，不同单词的posting lists 长度差别很大，可以区别对待。存储管理的方法在DBMS已经有深入研究。在倒排文件中，每个单词的posting lists的访问模式是顺序扫描（sequential scanning），作为一个对象看待最合适。关系数据库管理系统（RDBMS）用于倒排文件的缺点是不太灵活，而且SQL语句的开销比较大