信息检索与Web搜索9.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索与Web搜索9

信息检索与Web搜索 第1讲 概述 授课人:高曙明 *改编自“现代信息检索”网上公开课件(/~wangbin) 信息检索概念 从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科 2 大规模 文档集合 信息需求 查询 相关文档列表 信息检索系统 查找 信息检索概念 文档(Document): 指以文本内容为主的信息源,如纯文本、网页、邮件、论文、专利、图书等 非结构化文档:指没有清晰和明显结构的文档,主要是纯文本 半结构化文档:指带有简单结构表示的文档,如网页 title李甲主页/title body…/body … 3 4 信息检索概念 一般涉及信息的获取、分析、组织、存储、比对和展示 信息检索 vs.关系数据库 IR系统主要用于查询文档 RDB系统主要用于查询结构化数据,即记录集合,这些记录中包含预先定义的语义属性及属性值,如一本书的作者、标题、出版年份等 5 信息检索 vs.相关学科 6 信息检索技术的重要性 用户需要信息检索技术:信息时代的信息量爆炸式增长、噪音太多,寻找所需要的信息非常不容易 使用搜索引擎寻找所需要的信息已经成为很多人的日常行为;使用专业信息检索系统,如专利、法律条文、科技论文等检索系统,则是专业人员的经常行为 但目前的搜索引擎和专业信息检索系统还不尽如人意 7 信息检索技术的重要性 公司需要信息检索技术:Yahoo、Google、Baidu,还有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列 包含搜索的应用很多:电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术 搜索是未来操作系统的重要组成部分 8 9 搜索 推荐 挖掘 IR技术 情报处理 内容安全 舆情分析 信息检索技术的发展历史 1960-70’s: 开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统 形成最基本的概念、模型和算法 Salton教授是奠基人 1980’s: 由公司主导开发大规模文档数据库系统,如Lexis-Nexis, Dialog, MEDLINE 10 信息检索技术的发展历史 1990’s: 第一个网络搜索工具:1990年加拿大McGill大学开发的FTP搜索工具Archie 第一个WEB搜索引擎:1994年美国CMU开发的Lycos Yahoo搜索引擎:1995斯坦福大学博士生开发 开始进行IR软件评测:NIST TREC 推荐系统的出现:Ringo,Amazon 11 信息检索技术的发展历史 2000’s: Google搜索引擎:斯坦福大学博士生开发,采用链接分析技术 信息抽取: Whizbang,Fetch,Burning Glass 问答系统: TREC Q/A track 跨语言IR: DARPA Tides 知识图谱的研发和使用 12 基于规模的信息检索分类 个人信息检索:个人相关文档的搜索,如桌面搜索(Desktop Search),属小规模 企业级信息检索:企业内部文档的搜索,行业文档的搜索等,属中大规模 Web信息检索:数万亿网页的搜索,属超大规模。 13 信息检索的基本内容 信息检索原理图 14 信息检索的基本内容 信息检索原理图 15 信息检索的基本内容 文档采集 功能:自动获取有用的文档,用于建立文档库 主要内容:Web采集器(web crawler) 文本分析 功能:文档预处理,用于将文档转化成索引词项或特征 主要内容:词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等 16 信息检索的基本内容 索引构建 功能:创建索引数据结构,用于支持快速搜索 主要内容:倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建 索引压缩 功能:对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率 主要内容:词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩 17 信息检索的基本内容 检索模型与排序算法 功能:用于判断查询和文档之间的关联性 主要内容:布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF 的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法 18 信息检索的基本内容 用户交互 功能:支持用户创建和精化查询,支持检索结果的展示 主要内容:查询输入、查询变换、相关反馈和伪相关反馈、查询扩展及重构、检索结

文档评论(0)

woai118doc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档