第一讲信息检索技术简介(1-3章).pptVIP

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一、什么是信息检索 1.1 信息检索简介 信息检索先驱/领袖Gerard Salton(杰拉德·索尔顿 ): 信息检索是关于信息的结构、分析、组织、存储、搜索和检索的领域。(从图书借阅说起) (20世纪50年代开始)信息检索主要针对文档: 网页、电子邮件、论文、图书、新闻,。。。 如今,也试图处理各种多媒体信息! 文档与数据库的区别: 数据库有良好结构(记录,属性);而文档大部分信息是文本,文本是无结构的。给信息检索带来困难! 半结构 文档也有一定结构(标题,章节,摘要,邮件时间,结束语),信息检索将充分利用到! 1.2 信息检索的维度 1.3 检索中的三大关键问题 1)相关性 相关文档-包含了用户(输入查询时)想要找的信息 高级相关性涉及到语义匹配问题 相关性可分为:话题相关(内容有关联),用户相关(与当前用户的需求一致) 2)评价 用于衡量信息检索的效果/质量 评价指标/体系有多种:精确率,召回率,F值,点击流分析 3)用户的信息需求 当输入“熊猫”时,用户到底想要什么? 对搜索的评价是以用户为中心的,用户需求影响结果排序 用户是搜索质量的最终审判者 1.4 搜索引擎 搜索引擎 (70’s)早期:指为文本搜索服务的特殊’硬件’。 (比如,一台小型机或多机系统) (80’s)随后:在描述用来比较查询和文档并生成文档排序结果的软件系统时,逐渐用“搜索引擎”一词泛指“信息检索系统”。 搜索引擎的基本类型 网络搜索引擎(能够爬取T级(1T=1024G)数据,并提供毫秒级查询响应) 企业搜索引擎(能够处理公司内不同类型的信息源,甚至利用数据挖掘工具来分析发现结构) 桌面搜索引擎(能够提供直观界面来搜索非常异质的混合信息,浏览的网页、文档、邮件,…)# 1.5 搜索引擎设计的核心问题 1.6 搜索工程师 信息检索研究内容, 包括: 建立文本和语言的数学模型, 建立带有测试集合与用户的大规模环境, 写作大量学术论文(研究处理算法,研究系统构架),… 研究者应该具备良好的计算机科学训练: 信息科学,数学,社会科学(管理学,情报学),计算语言学,… 跨学科性 特别,做搜索引擎者(搜索工程师) ,还应具备: +更强的实践能力、创新能力! 搜索工程师应具备条件: 受过计算机科学训练, 具有计算机系统或数据库技术背景 还应当受过信息检索方面的训练! 工作单位:一般在互联网搜索公司 二、搜索引擎的基本架构 2.1 软件架构 软件架构(在一个特殊的抽象层描述系统,通常包括) 一组软件组件 组件提供的接口 各组件之间的联系 搜索引擎的架构 提供对系统中重要组件及组件之间的关系的高层次描述 搜索引擎架构的设计目标 保证系统能够满足应用需求总体! 运行效果和效率质量! 以及如何适应文档集合的变化、查询词错误等细微!# 2.2 搜索引擎的基本构件 两种核心功能: 索引处理 查询处理 索引处理组件: 文本采集 文本转换 (抽取索引/特征项) 创建索引 (倒排索引) 查询处理组件: 用户交互 排序 (高效率,高质量) 评价 (额外部件,离线进行) 2.3 组件的基本功能 索引处理组件集: 1)文本采集组件 2)文本转换组件 3)索引创建组件 查询处理组件集: 4)用户交互组件 5)排序组件 6)评价组件 1)文本采集组件可能有的功能 爬虫(crawler) 爬虫的种类很多,最普遍的是网络爬虫 通过追踪网页的超链接来寻找和下载页面 海量网页,如何设计爬行路线? 范围限制(中国,站点),垂直/话题/主题搜寻(医学) 对企业搜索,可能还要求扫描个人目录(邮件,讲稿) 信息源 是一种存取实时‘文档’流的机制 例如,”新闻/博客/视频”等RSS信息源,”广播/电视”信息源 (还隐含字幕,语音) 文档转换 将爬虫或信息源提供的(各种)文档转换为文本和元数据格式 如:HTML/XML文档处理,pdf文档处理,office文档处理 文档数据库 管理大量文档以及这些文档相关的结构化数据(标题,摘要,锚文本) 可提高检索效率和快速生成显示结果(标题,摘要,快照) 2)文本转换组件可能有的功能 解析器 处理文本中的词素序列,识别结构化元素(标题,超链接) 词素的识别与切分(大小写,消歧,专用名词) 使用HTML/XML等完成文档结构识别(标签语义)及内容删减 停用词处理 引入停用词表,便于去除文本中的无意义词或频繁词(的,为,和) 词干提取 用于把同一个词干得到的派生词进行归类,提高匹配可能性 但可能导致搜索问题(Fishing),对阿拉伯语重要,对中文则无用 超链接分析 计算网页重要度,锚文本(可提高用户对指向网页的吸引力)很有用 信息提取 提取复杂的索引项(加粗,题目中词) 重点研究具有指定语义内容的特

文档评论(0)

didala + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档