- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索与Web搜索9
信息检索与Web搜索
第1讲 概述
授课人:高曙明
*改编自“现代信息检索”网上公开课件(/~wangbin)
信息检索概念
从大规模的具有非结构化特性(通常是文本)的资料集合(通常保存在计算机上)中找出满足用户信息需求的资料(通常是文档)的一门学科
2
大规模
文档集合
信息需求
查询
相关文档列表
信息检索系统
查找
信息检索概念
文档(Document): 指以文本内容为主的信息源,如纯文本、网页、邮件、论文、专利、图书等
非结构化文档:指没有清晰和明显结构的文档,主要是纯文本
半结构化文档:指带有简单结构表示的文档,如网页
title李甲主页/title
body…/body …
3
4
信息检索概念
一般涉及信息的获取、分析、组织、存储、比对和展示
信息检索 vs.关系数据库
IR系统主要用于查询文档
RDB系统主要用于查询结构化数据,即记录集合,这些记录中包含预先定义的语义属性及属性值,如一本书的作者、标题、出版年份等
5
信息检索 vs.相关学科
6
信息检索技术的重要性
用户需要信息检索技术:信息时代的信息量爆炸式增长、噪音太多,寻找所需要的信息非常不容易
使用搜索引擎寻找所需要的信息已经成为很多人的日常行为;使用专业信息检索系统,如专利、法律条文、科技论文等检索系统,则是专业人员的经常行为
但目前的搜索引擎和专业信息检索系统还不尽如人意
7
信息检索技术的重要性
公司需要信息检索技术:Yahoo、Google、Baidu,还有Microsoft、Sina、Sohu、Tecent、Netease等都加入到搜索引擎的竞争行列
包含搜索的应用很多:电子商务(如亚马逊网站、阿里巴巴)、社交网(微博、Facebook、twitter、校内网)、数字图书馆、大规模数据分析等都需要信息检索技术
搜索是未来操作系统的重要组成部分
8
9
搜索
推荐
挖掘
IR技术
情报处理
内容安全
舆情分析
信息检索技术的发展历史
1960-70’s:
开始探索使用计算机为一些小规模科技、法律和商业文献的摘要建立文本检索系统
形成最基本的概念、模型和算法
Salton教授是奠基人
1980’s:
由公司主导开发大规模文档数据库系统,如Lexis-Nexis, Dialog, MEDLINE
10
信息检索技术的发展历史
1990’s:
第一个网络搜索工具:1990年加拿大McGill大学开发的FTP搜索工具Archie
第一个WEB搜索引擎:1994年美国CMU开发的Lycos
Yahoo搜索引擎:1995斯坦福大学博士生开发
开始进行IR软件评测:NIST TREC
推荐系统的出现:Ringo,Amazon
11
信息检索技术的发展历史
2000’s:
Google搜索引擎:斯坦福大学博士生开发,采用链接分析技术
信息抽取: Whizbang,Fetch,Burning Glass
问答系统: TREC Q/A track
跨语言IR: DARPA Tides
知识图谱的研发和使用
12
基于规模的信息检索分类
个人信息检索:个人相关文档的搜索,如桌面搜索(Desktop Search),属小规模
企业级信息检索:企业内部文档的搜索,行业文档的搜索等,属中大规模
Web信息检索:数万亿网页的搜索,属超大规模。
13
信息检索的基本内容
信息检索原理图
14
信息检索的基本内容
信息检索原理图
15
信息检索的基本内容
文档采集
功能:自动获取有用的文档,用于建立文档库
主要内容:Web采集器(web crawler)
文本分析
功能:文档预处理,用于将文档转化成索引词项或特征
主要内容:词条化、去除停用词、词项归一化、词干还原和词干归并、链接分析等
16
信息检索的基本内容
索引构建
功能:创建索引数据结构,用于支持快速搜索
主要内容:倒排索引、词典索引、基于块排序的索引构建、单遍内存式扫描构建、分布式(MapReduce)及动态索引构建
索引压缩
功能:对索引数据结构进行压缩表示,用于节省磁盘空间,提高检索系统效率
主要内容:词项的统计特性(Heaps定律、Zipf定律)、词典的压缩、倒排记录表的压缩
17
信息检索的基本内容
检索模型与排序算法
功能:用于判断查询和文档之间的关联性
主要内容:布尔检索模型、向量空间模型、概率检索模型、TF-IDF词项权重计算机制以及基于TF-IDF 的文档排序算法、概率排序原理、PageRank算法、HITS算法、基于向量空间模型的XML文档排序算法
18
信息检索的基本内容
用户交互
功能:支持用户创建和精化查询,支持检索结果的展示
主要内容:查询输入、查询变换、相关反馈和伪相关反馈、查询扩展及重构、检索结
您可能关注的文档
最近下载
- 信息技术赋能下的学生评价结果应用,激发高中生学习潜能的策略分析教学研究课题报告.docx
- 附件3:设备部安全责任清单和月度检查表.docx VIP
- 预防流感英文版课件.pptx VIP
- 久菱JL-E系列变频器说明书.pdf VIP
- 新技术、新产品、新工艺、新材料应用施工方案(新版).docx VIP
- 危险化学品典型事故案例分析(王如君).pptx VIP
- 策略深度报告:AI的宏观悖论与社会主义全球化.pdf VIP
- SY_T 6848-2023 地下储气库设计规范(正式版).pdf VIP
- 个人二手车买卖合同标准范本(二篇).doc VIP
- 新人教部编版一年级语文上册全册课时练(一课一练).pdf VIP
原创力文档


文档评论(0)