信息检索与Web搜索9.docxVIP

下载本文档

20
0
约4.36千字
约 10页
2018-08-14 发布于江苏
举报
版权申诉

信息检索与Web搜索9.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索与Web搜索9

信息检索与Web搜索第1讲概述授课人：高曙明 *改编自“现代信息检索”网上公开课件（/~wangbin）信息检索概念从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科 2 大规模文档集合信息需求查询相关文档列表信息检索系统查找信息检索概念文档（Document）: 指以文本内容为主的信息源，如纯文本、网页、邮件、论文、专利、图书等非结构化文档：指没有清晰和明显结构的文档，主要是纯文本半结构化文档：指带有简单结构表示的文档，如网页 title李甲主页/title body…/body … 3 4 信息检索概念一般涉及信息的获取、分析、组织、存储、比对和展示信息检索 vs.关系数据库 IR系统主要用于查询文档 RDB系统主要用于查询结构化数据，即记录集合，这些记录中包含预先定义的语义属性及属性值，如一本书的作者、标题、出版年份等 5 信息检索 vs.相关学科 6 信息检索技术的重要性用户需要信息检索技术：信息时代的信息量爆炸式增长、噪音太多，寻找所需要的信息非常不容易使用搜索引擎寻找所需要的信息已经成为很多人的日常行为；使用专业信息检索系统，如专利、法律条文、科技论文等检索系统，则是专业人员的经常行为但目前的搜索引擎和专业信息检索系统还不尽如人意 7 信息检索技术的重要性公司需要信息检索技术：Yahoo、Google、Baidu，还有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列包含搜索的应用很多：电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术搜索是未来操作系统的重要组成部分 8 9 搜索推荐挖掘 IR技术情报处理内容安全舆情分析信息检索技术的发展历史 1960-70’s: 开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统形成最基本的概念、模型和算法 Salton教授是奠基人 1980’s: 由公司主导开发大规模文档数据库系统，如Lexis-Nexis, Dialog, MEDLINE 10 信息检索技术的发展历史 1990’s: 第一个网络搜索工具：1990年加拿大McGill大学开发的FTP搜索工具Archie 第一个WEB搜索引擎：1994年美国CMU开发的Lycos Yahoo搜索引擎：1995斯坦福大学博士生开发开始进行IR软件评测：NIST TREC 推荐系统的出现：Ringo,Amazon 11 信息检索技术的发展历史 2000’s： Google搜索引擎：斯坦福大学博士生开发，采用链接分析技术信息抽取: Whizbang,Fetch,Burning Glass 问答系统: TREC Q/A track 跨语言IR: DARPA Tides 知识图谱的研发和使用 12 基于规模的信息检索分类个人信息检索：个人相关文档的搜索，如桌面搜索(Desktop Search)，属小规模企业级信息检索：企业内部文档的搜索，行业文档的搜索等，属中大规模 Web信息检索：数万亿网页的搜索，属超大规模。 13 信息检索的基本内容信息检索原理图 14 信息检索的基本内容信息检索原理图 15 信息检索的基本内容文档采集功能：自动获取有用的文档，用于建立文档库主要内容：Web采集器（web crawler）文本分析功能：文档预处理，用于将文档转化成索引词项或特征主要内容：词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等 16 信息检索的基本内容索引构建功能：创建索引数据结构，用于支持快速搜索主要内容：倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建索引压缩功能：对索引数据结构进行压缩表示，用于节省磁盘空间，提高检索系统效率主要内容：词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩 17 信息检索的基本内容检索模型与排序算法功能：用于判断查询和文档之间的关联性主要内容：布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF 的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法 18 信息检索的基本内容用户交互功能：支持用户创建和精化查询，支持检索结果的展示主要内容：查询输入、查询变换、相关反馈和伪相关反馈、查询扩展及重构、检索结