現代信息检索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
現代信息检索

现代信息检索 陆铭richard.lu@ / 2 一、 引言 课程概况 研究历史和现状 学科框架 基本概念 3 1. 课程概况(About the course) 设课目的 市场发展的需求 用户需要信息检索技术 互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术 信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争 人才的竞争 搜索的技术人才出现缺口 2000年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置? 4 数字化信息量举例 音乐作品(莫扎特):约100MB 报纸(华尔街杂志):100MB/年(文本) 卡片目录(美国国会图书馆):17GB 广播(WABC) :270GB/年(未经压缩) 网络论坛(Netnews):300GB/年 地区图书馆(加州大学图书馆):1.4TB(图书扫描版) Internet出版(WWW):1997年约4TB 电视(CNN新闻):1GB/1小时, 6TB/年(经压缩) 录像带出租(Blockbuster Video):9TB 科研图书馆(美国会图书馆):全部图书馆数字化20TB 来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》 5 信息检索的问题 信息超载 信息太多, 需要过滤 检索结果垃圾太多, 有害信息太多 查找非结构信息有困难 多数数据库在结构化字段上工作 多数商业信息是非结构化的. 报告、电子邮件、来往公函 ... 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重 标引是主观的 标引者之间不一致, 经验统计表明标引者之间仅20% 相同 作者与标引者之间、检索者与用户之间不一致 6 信息检索的问题 语言问题 一词多意 Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems? 一意多词 car, automobile, vehicle, sedan, horseless carriage... 7 1. 课程概况(About the course) 课程性质 图书馆学研究生的必修课程 课程内容 本课程的教学目的是培养学生了解信息检索工具的基本原理和技术,使学生能够进行较深层的研究或应用开发 本课程不是一门讲授使用信息检索方法的课程,本课程是研究信息检索的技术实现的一门基础课程 8 1. 课程概况——课程内容体系 引言 课程概况,研究历史和现状,学科框架,相关概念 检索理论 IR模型的形式化表示和类型,经典模型 检索语言,互操作,自然语言、本体论 文本检索 经典、现代文本处理和全文文本处理,分类和聚合 网络检索 网络检索、 PageRank和HITS算法 信息自动处理和系统评价 可视化、自动文摘、评价 多媒体检索 模型与语言,标引与检索,并行与分布式检索 数字图书馆 OPAC,文献模型、表达与存取,元数据,云数据库检索技能 9 1. 课程概况(About the course) 授课方式 自学与课堂讨论相结合 课堂讲述和课后练习相结合 讲授内容既包含传统内容,也注意吸收最新研究成果 既考虑入门,也兼顾研究 考核方式 课程论文 按发表要求写作,课程结束,论文录用 成绩构成 平时成绩:课堂演讲讨论与1篇小论文,30% 考试:1篇课程论文(约5000字),70% 10 1. 课程概况——参考书籍及文献 详见教学大纲 Baeza-Yates, R. B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 王知津等译. 现代信息检索技术.机械工业出版社,2005 苏新宁. 信息检索理论与技术. 科学技术文献出版社,2004 焦玉英.信息检索进展,科学出版社,2003 林培光等,面向Web的个性化语义信息检索技术,中国财政经济出版社,2009 解虹,数字化环境下交互式信息检索,机械工业出版社,2010 于天恩,迅速搭建全文搜索平台,清华大学出版社,2007 11 1.

文档评论(0)

1234554321 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档