- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MINDS会议:信息检索研究议程.PDF
MINDS会议:信息检索研究议程
Jamie Callan, Carnegie Mellon University (主席)
James Allan, University of Massachusetts, Amherst
Charles L. A. Clarke, University of Waterloo
Susan Dumais, Microsoft Research
David A. Evans, JustSystems Evans Research
Mark Sanderson, Sheffield University
ChengXiang Zhai, University of Illinois at Urbana-Champaign
本报告是基于MINDS 研讨会的五份报告中的其中一份,该研讨会由Donna
Harman (NIST )领导并由国家情报总监办公室科学技术办公室下属的突破性技术办
公室 (ODNI/ADDNI/ST/DTO)的Heather McCallum-Bayliss发起。如查询其他报告
以及总体概述,请访问以下网址:/iaui/894.02/minds.html.
1. 引言
从二十世纪五十年代末开始,信息检索(IR )领域就已经开发出帮助人们查找、
组织和分析信息的工具。在该领域中,早期的具有影响力的关键事件是众所周知的,
它们包括H. P. Luhn 的开创性工作;Salton和他的学生们进行的向量空间检索模型的
研发;Cleverdon 对Cranfield 实验方法论的发展;Spärck Jones 对idf 的研发以及
Robertson和Croft对概率检索模型进行的一系列研发工作。直到网络的发展,一些专
业的信息分析人员(例如,图书管理员、情报分析员、法律界人士和制药业人士)才
对IR产生了浓厚的兴趣。
在二十世纪九十年代早期,廉价磁盘存储和网络的发展极大地改变了该领域。
各种规模的组织开始收集数据文档,网络搜索公司开始制造网络的副本。随着搜集
的文档越来越多,搜索引擎迅速成为查找资料的首选方法。也许最重要的是,网络
从科学家的工具发展成为公众的通信媒体。突然之间,所有人都成了搜索引擎的使
用者。
在过去的十年中,IR 领域得到了飞速发展。其中最值得关注的发展就是多语言
检索和跨语言检索、对多文档表示方法的重要性的更广泛认识、基于统计语言模型
的新检索模型、利用机器学习方法来设置模型参数、对问答系统的重新重视、开源
运动(这使研究机构可以广泛使用免费、高品质的搜索引擎),以及IR 研究机构的
极大扩展。相对不太活跃的进展,网络搜索的商业化已经在产业界和学术界引起了
知识平衡的重大转变,大型网络搜索引擎具有网络数据、用户数据和研究者不能拷
贝的计算机硬件,这引起了人们对学术研究的某些领域的质量和关联性的关注。人
们生成、查找和使用信息的方式正在迅速进步,这意味着信息检索还不是一个“ 已经
解决的问题” 。事实上,IR 系统的复杂度和范围的扩大已经使开放的研究问题的数
量倍增。
2. 近期影响
网上信息的增长需要强大的信息管理工具来帮助人们有效地管理信息。随着新
数据特征和应用程序需求的出现,对IR领域提出了新的挑战。
就全球而言,网络无疑是近期信息增长的最大推动力。从信息管理的角度看,
网上完全自由和低成本的出版暗含以下几层含义:第一,网络信息的数量正在快速
增长,单单对于处理网络规模,这就是个很大的挑战。例如,我们不可能维护一个
当前网上所有信息的完整的索引,这使得网络爬虫技术成为一个新的挑战。第二,
对信息的质量没有控制。拼写错误很普遍,信息的有效性随着信息来源和作者有很
大不同,并且为了获利或欺诈而故意留出了垃圾邮件页面。信息质量的建模已经成
为网络搜索的一个重要组成部分。第三,数据和内容的各方面 (例如语言、体裁和
内容结构)是高度异构的。数据的异构性为IR 系统中的所有组件带来了很多挑战。
第四,使用者为公众。大多数用户都是普通人群,没有专业的搜索技能,他们将从
容易操作的搜索支持中受益。这种大型的
您可能关注的文档
- GM1302 C 语言参考程序.PDF
- JAS – Distributed Data Analysis.PPT
- JNI – C++ integration made easy.PDF
- Jun PengStanford University – Department of Civil and .PPT
- Linear Lists – Array Representation.PPT
- Lishang-wanglai (礼尚往来): A Chinese.PDF
- Luaglue 说明文档.DOC
- Military and Overseas VoterEmpowerment Act (“MOVE” .PPT
- MOBISERV – FP7 248434.DOC
- Nest Etiquette—Where Ants Go When.PDF
最近下载
- 2024江苏信息职业技术学院单招《英语》测试卷及完整答案详解(各地真题).docx VIP
- 第13课 中国来信改变了我的生活.pptx VIP
- 英语专八阅读理解精讲.pdf VIP
- [教学设计]信息科技 四年级上册 第一单元 第5课 数据价值巧发现.docx VIP
- 机械设计课程设计闸门启闭机说明书.doc VIP
- 市民中心项目EPC工程总承包招标文件.pdf VIP
- 胶原及胶原蛋白在保健中的作用.docx VIP
- 江苏信息职业技术学院单招《数学》预测复习及答案详解【真题汇编】.docx VIP
- 学校食堂食材采购工作实施方案.docx VIP
- QYJK P20092—2018《DCDC变换器设计规范》.pdf VIP
原创力文档


文档评论(0)