《统计自然语言处理与信息检索》信息检索new1.pptVIP

《统计自然语言处理与信息检索》信息检索new1.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索 第一部分:概述 提纲 概念 体系结构 历史 困难 相关领域 主要搜索引擎 信息检索的应用 主要研究机构、会议、期刊 塞缪尔·约翰逊(Samuel Johnson)说: 知识分成两类: 一类是我们要掌握的学科知识; 另一类是要知道在哪儿可以找到有关知识的信息。 Knowledge is of two kinds. We know a subject ourselves, or we know where we can find information upon it . 1. 概念 信息检索:从非结构化的文档集中找出 与用户需求相关的信息 和其它相关技术的区别 和数据库的区别 数据库是结构化数据 和情报检索的区别 情报检索介绍如何利用信息检索工具 1. 概念 – 处理的对象 非结构化数据 文本数据:新闻、科技论文等 网页:HTML、XML 多媒体数据:图像、图形、视频、音频 目前最主要的处理对象是互联网 1. 概念 –典型的IR任务 给定 自然语言的文档集合 用户的提问(Query)-由用户需求而来 查找 和query相关的经过排序(Rank)的文档子集 1. 概念 – IR系统 1. 概念 – 基于内容的图像查询 查询 2. IR系统的体系结构 2. IR系统的体系结构 – 系统要素 文本处理形成索引词 删除停用词 Stemming(提取词干) 建索引 为文档建立倒排索引表 搜索 根据倒排索引表检索出与查询相关的文档 排序 将检索出的文档根据相关性排序 2. IR系统的体系结构 – 系统要素 用户界面 管理和用户的交互过程,包括: 提问输入和文档输出 相关反馈 结果的可视化 查询操作 对查询进行变换,以改进检索结果 根据同义词词典(thesaurus)对查询进行扩展 利用相关反馈对查询进行变换 2. IR系统的体系结构 – Web搜索 将IR技术应用于World Wide Web上的 HTML网页 和纯文本相比,网页的特点如下: 必须通过在网上“爬行”搜集网页 文档的更新是不可控的 可以开发网页的结构布局信息 可以开发网页之间的链接结构 2. IR系统的体系结构 – Web搜索系统 3. IR的历史(1) Information Retrieval这个术语产生于Calvin Mooers 1948年在MIT的硕士论文。 1960-70’s: 最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档 检索模型为基本的布尔模型和向量空间模型 Cornell University的Prof. Salton和他的学生成为这个领域的先驱 伦敦城市大学的Robertson及剑桥大学的Sparck Jones是概率模型的倡导者 3. IR的历史(2) 1980’s: IR技术出现在大型文档数据库中 Lexis-Nexis Dialog MEDLINE 3. IR的历史(3) 1990’s: 在互联网上进行对FTP文档进行搜索 Archie — 第一个网络搜索工具,加拿大蒙特利尔McGill大学开发 WAIS 在World Wide Web上进行搜索 Lycos —第一个网络搜索引擎,1994年美国CMU开发 Yahoo — 1995,斯坦福大学博士生 Altavista 3. IR的历史(4) 1990’s (续): 有组织地进行评测 NIST TREC 智能推荐系统 Ringo Amazon(亚马逊网络售书) NetPerceptions 3. IR的历史(5) 2000’s 为Web搜索服务的链接分析 Google -- Sergey Brin,Larry Page,1998,BackRub 自动信息抽取 Whizbang Fetch Burning Glass 问答系统 TREC Q/A track 2001,百度 3. IR的历史(6) 2000’s continued: 多媒体IR 图像(Image) 视频(Video) 声音(speech)和音频(Audio) 音乐(music) 跨语言检索Cross-Language IR DARPA Tides项目 自动文摘 4. IR的困难:国际互联网发展趋势 大量的数据向IR技术提出挑战 以前认为几百兆的数据就是大数据集,现在一个单独的数据库就能够处理几十G以上的数据 4. IR的困难:难点所在 很难获取非结构化文本的语义信息 “select * from Employee where Salary 100,000” “找出所有关于公司并购的新闻” “找出所有和互联网公司并购相关的新闻” 上述三个问题,一个比一个难 检索是在非受限域(unrestricted domains)文档 集上进行的 很难对文档的类别事先定义或分类 4. IR的困

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档