信息检索与Web搜索.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索与Web搜索 第1讲 概述 授课人:高曙明*改编自“现代信息检索”网上公开课件(/~wangbin)第1页,共30页。信息检索概念从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科查询信息检索系统大规模文档集合信息需求查找相关文档列表第2页,共30页。信息检索概念文档(Document): 指以文本内容为主的信息源,如纯文本、网页、邮件、论文、专利、图书等非结构化文档:指没有清晰和明显结构的文档,主要是纯文本半结构化文档:指带有简单结构表示的文档,如网页 title李甲主页/title body…/body …第3页,共30页。GoogleWeb信息检索概念一般涉及信息的获取、分析、组织、存储、比对和展示第4页,共30页。信息检索 vs.关系数据库IR系统主要用于查询文档RDB系统主要用于查询结构化数据,即记录集合,这些记录中包含预先定义的语义属性及属性值,如一本书的作者、标题、出版年份等第5页,共30页。信息检索 vs.相关学科第6页,共30页。信息检索技术的重要性用户需要信息检索技术:信息时代的信息量爆炸式增长、噪音太多,寻找所需要的信息非常不容易使用搜索引擎寻找所需要的信息已经成为很多人的日常行为;使用专业信息检索系统,如专利、法律条文、科技论文等检索系统,则是专业人员的经常行为但目前的搜索引擎和专业信息检索系统还不尽如人意第7页,共30页。信息检索技术的重要性公司需要信息检索技术:Yahoo、Google、Baidu,还有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列包含搜索的应用很多:电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术搜索是未来操作系统的重要组成部分第8页,共30页。舆情分析推荐 搜索IR技术 内容安全情报处理挖掘第9页,共30页。信息检索技术的发展历史1960-70’s: 开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统形成最基本的概念、模型和算法Salton教授是奠基人1980’s: 由公司主导开发大规模文档数据库系统,如Lexis-Nexis, Dialog, MEDLINE第10页,共30页。信息检索技术的发展历史1990’s:第一个网络搜索工具:1990年加拿大McGill大学开发的FTP搜索工具Archie第一个WEB搜索引擎:1994年美国CMU开发的LycosYahoo搜索引擎:1995斯坦福大学博士生开发开始进行IR软件评测:NIST TREC推荐系统的出现:Ringo,Amazon第11页,共30页。信息检索技术的发展历史2000’s:Google搜索引擎:斯坦福大学博士生开发,采用链接分析技术信息抽取: Whizbang,Fetch,Burning Glass问答系统: TREC Q/A track跨语言IR: DARPA Tides知识图谱的研发和使用第12页,共30页。基于规模的信息检索分类个人信息检索:个人相关文档的搜索,如桌面搜索(Desktop Search),属小规模企业级信息检索:企业内部文档的搜索,行业文档的搜索等,属中大规模Web信息检索:数万亿网页的搜索,属超大规模。第13页,共30页。信息检索的基本内容信息检索原理图第14页,共30页。信息检索的基本内容信息检索原理图第15页,共30页。信息检索的基本内容文档采集功能:自动获取有用的文档,用于建立文档库主要内容:Web采集器(web crawler)文本分析功能:文档预处理,用于将文档转化成索引词项或特征主要内容:词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等第16页,共30页。信息检索的基本内容索引构建功能:创建索引数据结构,用于支持快速搜索主要内容:倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建索引压缩功能:对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率主要内容:词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩第17页,共30页。信息检索的基本内容检索模型与排序算法功能:用于判断查询和文档之间的关联性主要内容:布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF 的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法第18页,共30页。信息检索的基本内容用户交互功能:支持用户创建和精化查询,支持检索结果的展示主要内容:查询输入、查询变换、相关反馈和伪相

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档