《统计自然语言处理与信息检索》信息检索new1.pptVIP

下载本文档

15
0
约 48页
2017-01-07 发布于浙江
举报
版权申诉

《统计自然语言处理与信息检索》信息检索new1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索第一部分：概述提纲概念体系结构历史困难相关领域主要搜索引擎信息检索的应用主要研究机构、会议、期刊塞缪尔·约翰逊（Samuel Johnson）说：知识分成两类：一类是我们要掌握的学科知识；另一类是要知道在哪儿可以找到有关知识的信息。 Knowledge is of two kinds. We know a subject ourselves, or we know where we can find information upon it . 1. 概念信息检索：从非结构化的文档集中找出与用户需求相关的信息和其它相关技术的区别和数据库的区别数据库是结构化数据和情报检索的区别情报检索介绍如何利用信息检索工具 1. 概念 – 处理的对象非结构化数据文本数据：新闻、科技论文等网页：HTML、XML 多媒体数据：图像、图形、视频、音频目前最主要的处理对象是互联网 1. 概念 –典型的IR任务给定自然语言的文档集合用户的提问(Query)-由用户需求而来查找和query相关的经过排序(Rank)的文档子集 1. 概念 – IR系统 1. 概念 – 基于内容的图像查询查询 2. IR系统的体系结构 2. IR系统的体系结构 – 系统要素文本处理形成索引词删除停用词 Stemming（提取词干）建索引为文档建立倒排索引表搜索根据倒排索引表检索出与查询相关的文档排序将检索出的文档根据相关性排序 2. IR系统的体系结构 – 系统要素用户界面管理和用户的交互过程，包括：提问输入和文档输出相关反馈结果的可视化查询操作对查询进行变换，以改进检索结果根据同义词词典(thesaurus)对查询进行扩展利用相关反馈对查询进行变换 2. IR系统的体系结构 – Web搜索将IR技术应用于World Wide Web上的 HTML网页和纯文本相比，网页的特点如下：必须通过在网上“爬行”搜集网页文档的更新是不可控的可以开发网页的结构布局信息可以开发网页之间的链接结构 2. IR系统的体系结构 – Web搜索系统 3. IR的历史（1） Information Retrieval这个术语产生于Calvin Mooers 1948年在MIT的硕士论文。 1960-70’s: 最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档检索模型为基本的布尔模型和向量空间模型 Cornell University的Prof. Salton和他的学生成为这个领域的先驱伦敦城市大学的Robertson及剑桥大学的Sparck Jones是概率模型的倡导者 3. IR的历史（2） 1980’s: IR技术出现在大型文档数据库中 Lexis-Nexis Dialog MEDLINE 3. IR的历史（3） 1990’s: 在互联网上进行对FTP文档进行搜索 Archie — 第一个网络搜索工具，加拿大蒙特利尔McGill大学开发 WAIS 在World Wide Web上进行搜索 Lycos —第一个网络搜索引擎，1994年美国CMU开发 Yahoo — 1995，斯坦福大学博士生 Altavista 3. IR的历史（4） 1990’s （续）: 有组织地进行评测 NIST TREC 智能推荐系统 Ringo Amazon（亚马逊网络售书） NetPerceptions 3. IR的历史（5） 2000’s 为Web搜索服务的链接分析 Google -- Sergey Brin，Larry Page，1998，BackRub 自动信息抽取 Whizbang Fetch Burning Glass 问答系统 TREC Q/A track 2001，百度 3. IR的历史（6） 2000’s continued: 多媒体IR 图像(Image) 视频(Video) 声音(speech)和音频(Audio) 音乐(music) 跨语言检索Cross-Language IR DARPA Tides项目自动文摘 4. IR的困难：国际互联网发展趋势大量的数据向IR技术提出挑战以前认为几百兆的数据就是大数据集，现在一个单独的数据库就能够处理几十G以上的数据 4. IR的困难：难点所在很难获取非结构化文本的语义信息 “select * from Employee where Salary 100,000” “找出所有关于公司并购的新闻” “找出所有和互联网公司并购相关的新闻” 上述三个问题，一个比一个难检索是在非受限域(unrestricted domains)文档集上进行的很难对文档的类别事先定义或分类 4. IR的困