第一讲信息检索技术简介(1-3章).pptVIP

下载本文档

34
0
约1.3万字
约 46页
2016-12-23 发布于重庆
举报
版权申诉

第一讲信息检索技术简介(1-3章).ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一、什么是信息检索1.1 信息检索简介信息检索先驱/领袖Gerard Salton(杰拉德·索尔顿 )：信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。(从图书借阅说起) (20世纪50年代开始)信息检索主要针对文档：网页、电子邮件、论文、图书、新闻，。。。如今，也试图处理各种多媒体信息！文档与数据库的区别：数据库有良好结构（记录，属性）；而文档大部分信息是文本，文本是无结构的。给信息检索带来困难！半结构文档也有一定结构（标题，章节，摘要，邮件时间，结束语），信息检索将充分利用到！ 1.2 信息检索的维度 1.3 检索中的三大关键问题 1）相关性相关文档-包含了用户(输入查询时)想要找的信息高级相关性涉及到语义匹配问题相关性可分为：话题相关(内容有关联)，用户相关（与当前用户的需求一致） 2）评价用于衡量信息检索的效果/质量评价指标/体系有多种：精确率，召回率，F值，点击流分析 3）用户的信息需求当输入“熊猫”时，用户到底想要什么？对搜索的评价是以用户为中心的，用户需求影响结果排序用户是搜索质量的最终审判者 1.4 搜索引擎搜索引擎 (70’s)早期：指为文本搜索服务的特殊’硬件’。 (比如，一台小型机或多机系统) (80’s)随后：在描述用来比较查询和文档并生成文档排序结果的软件系统时，逐渐用“搜索引擎”一词泛指“信息检索系统”。搜索引擎的基本类型网络搜索引擎（能够爬取T级(1T=1024G)数据，并提供毫秒级查询响应）企业搜索引擎（能够处理公司内不同类型的信息源，甚至利用数据挖掘工具来分析发现结构）桌面搜索引擎（能够提供直观界面来搜索非常异质的混合信息，浏览的网页、文档、邮件，…）# 1.5 搜索引擎设计的核心问题 1.6 搜索工程师信息检索研究内容, 包括: 建立文本和语言的数学模型，建立带有测试集合与用户的大规模环境，写作大量学术论文(研究处理算法，研究系统构架)，… 研究者应该具备良好的计算机科学训练：信息科学，数学，社会科学（管理学，情报学），计算语言学，… 跨学科性特别，做搜索引擎者(搜索工程师) ，还应具备: +更强的实践能力、创新能力！搜索工程师应具备条件：受过计算机科学训练, 具有计算机系统或数据库技术背景还应当受过信息检索方面的训练！工作单位：一般在互联网搜索公司二、搜索引擎的基本架构2.1 软件架构软件架构(在一个特殊的抽象层描述系统，通常包括) 一组软件组件组件提供的接口各组件之间的联系搜索引擎的架构提供对系统中重要组件及组件之间的关系的高层次描述搜索引擎架构的设计目标保证系统能够满足应用需求总体！运行效果和效率质量！以及如何适应文档集合的变化、查询词错误等细微！# 2.2 搜索引擎的基本构件两种核心功能：索引处理查询处理索引处理组件：文本采集文本转换 (抽取索引/特征项) 创建索引 (倒排索引) 查询处理组件：用户交互排序 (高效率,高质量) 评价 (额外部件,离线进行) 2.3 组件的基本功能索引处理组件集： 1）文本采集组件 2）文本转换组件 3）索引创建组件查询处理组件集： 4）用户交互组件 5）排序组件 6）评价组件 1）文本采集组件可能有的功能爬虫(crawler) 爬虫的种类很多，最普遍的是网络爬虫通过追踪网页的超链接来寻找和下载页面海量网页，如何设计爬行路线？范围限制(中国，站点)，垂直/话题/主题搜寻(医学) 对企业搜索，可能还要求扫描个人目录(邮件，讲稿) 信息源是一种存取实时‘文档’流的机制例如，”新闻/博客/视频”等RSS信息源，”广播/电视”信息源 (还隐含字幕，语音) 文档转换将爬虫或信息源提供的(各种)文档转换为文本和元数据格式如：HTML/XML文档处理，pdf文档处理，office文档处理文档数据库管理大量文档以及这些文档相关的结构化数据(标题，摘要，锚文本) 可提高检索效率和快速生成显示结果(标题，摘要，快照) 2）文本转换组件可能有的功能解析器处理文本中的词素序列，识别结构化元素（标题，超链接）词素的识别与切分（大小写，消歧，专用名词）使用HTML/XML等完成文档结构识别(标签语义)及内容删减停用词处理引入停用词表，便于去除文本中的无意义词或频繁词(的,为,和) 词干提取用于把同一个词干得到的派生词进行归类，提高匹配可能性但可能导致搜索问题(Fishing),对阿拉伯语重要,对中文则无用超链接分析计算网页重要度，锚文本(可提高用户对指向网页的吸引力)很有用信息提取提取复杂的索引项(加粗，题目中词) 重点研究具有指定语义内容的特