网站大量收购闲置独家精品文档,联系QQ:2885784924

信息检索与Web搜索.ppt

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

信息检索与Web搜索第1讲概述授课人:高曙明*改编自“现代信息检索”网上公开课件(/~wangbin)信息检索概念*从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科大规模文档集合信息需求查询相关文档列表查找信息检索概念*文档(Document):指以文本内容为主的信息源,如纯文本、网页、邮件、论文、专利、图书等非结构化文档:指没有清晰和明显结构的文档,主要是纯文本半结构化文档:指带有简单结构表示的文档,如网页title李甲主页/titlebody…/body…信息检索概念*一般涉及信息的获取、分析、组织、存储、比对和展示WebGoogle信息检索vs.关系数据库*IR系统主要用于查询文档RDB系统主要用于查询结构化数据,即记录集合,这些记录中包含预先定义的语义属性及属性值,如一本书的作者、标题、出版年份等信息检索vs.相关学科*信息检索技术的重要性*030201用户需要信息检索技术:信息时代的信息量爆炸式增长、噪音太多,寻找所需要的信息非常不容易使用搜索引擎寻找所需要的信息已经成为很多人的日常行为;使用专业信息检索系统,如专利、法律条文、科技论文等检索系统,则是专业人员的经常行为但目前的搜索引擎和专业信息检索系统还不尽如人意信息检索技术的重要性*公司需要信息检索技术:Yahoo、Google、Baidu,还有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列01包含搜索的应用很多:电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术02搜索是未来操作系统的重要组成部分03*搜索推荐挖掘情报处理内容安全舆情分析信息检索技术的发展历史*由公司主导开发大规模文档数据库系统,如Lexis-Nexis,Dialog,MEDLINE1980’s:1960-70’s:开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统形成最基本的概念、模型和算法Salton教授是奠基人1990’s:信息检索技术的发展历史*推荐系统的出现:Ringo,AmazonYahoo搜索引擎:1995斯坦福大学博士生开发第一个网络搜索工具:1990年加拿大McGill大学开发的FTP搜索工具Archie第一个WEB搜索引擎:1994年美国CMU开发的Lycos开始进行IR软件评测:NISTTREC2000’s:信息检索技术的发展历史*STEP5STEP4STEP3STEP2STEP1Google搜索引擎:斯坦福大学博士生开发,采用链接分析技术信息抽取:Whizbang,Fetch,BurningGlass问答系统:TRECQ/Atrack跨语言IR:DARPATides知识图谱的研发和使用基于规模的信息检索分类*个人信息检索:个人相关文档的搜索,如桌面搜索(DesktopSearch),属小规模01企业级信息检索:企业内部文档的搜索,行业文档的搜索等,属中大规模02Web信息检索:数万亿网页的搜索,属超大规模。03信息检索的基本内容*信息检索原理图信息检索的基本内容*信息检索原理图信息检索的基本内容*文档采集功能:自动获取有用的文档,用于建立文档库主要内容:Web采集器(webcrawler)文本分析功能:文档预处理,用于将文档转化成索引词项或特征主要内容:词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等信息检索的基本内容*功能:创建索引数据结构,用于支持快速搜索主要内容:倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建索引构建1索引压缩功能:对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率主要内容:词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩2检索模型与排序算法信息检索的基本内容*功能:用于判断查询和文档之间的关联性主要内容:布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法信息检索的基本内容*功能:支持用户创建和精化查询,支持检索结

文档评论(0)

junjun37473 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档