- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
現代信息检索
现代信息检索
陆铭richard.lu@
/
2
一、 引言
课程概况
研究历史和现状
学科框架
基本概念
3
1. 课程概况(About the course)
设课目的
市场发展的需求
用户需要信息检索技术
互联网的信息量太大,寻找信息非常不容易
公司需要信息检索技术
信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争
人才的竞争
搜索的技术人才出现缺口
2000年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置?
4
数字化信息量举例
音乐作品(莫扎特):约100MB
报纸(华尔街杂志):100MB/年(文本)
卡片目录(美国国会图书馆):17GB
广播(WABC) :270GB/年(未经压缩)
网络论坛(Netnews):300GB/年
地区图书馆(加州大学图书馆):1.4TB(图书扫描版)
Internet出版(WWW):1997年约4TB
电视(CNN新闻):1GB/1小时, 6TB/年(经压缩)
录像带出租(Blockbuster Video):9TB
科研图书馆(美国会图书馆):全部图书馆数字化20TB
来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》
5
信息检索的问题
信息超载
信息太多, 需要过滤
检索结果垃圾太多,
有害信息太多
查找非结构信息有困难
多数数据库在结构化字段上工作
多数商业信息是非结构化的.
报告、电子邮件、来往公函 ...
美国商业每年产生4500亿份文件
波音747文件比飞机重量还重
标引是主观的
标引者之间不一致, 经验统计表明标引者之间仅20% 相同
作者与标引者之间、检索者与用户之间不一致
6
信息检索的问题
语言问题
一词多意
Bank: a river boundary or a savings and loans?
DNA: microbiology or Digital Equipment Corporation’s Network Architecture?
Free Rider: Economic game theory or urban transportation systems?
一意多词
car, automobile, vehicle, sedan, horseless carriage...
7
1. 课程概况(About the course)
课程性质
图书馆学研究生的必修课程
课程内容
本课程的教学目的是培养学生了解信息检索工具的基本原理和技术,使学生能够进行较深层的研究或应用开发
本课程不是一门讲授使用信息检索方法的课程,本课程是研究信息检索的技术实现的一门基础课程
8
1. 课程概况——课程内容体系
引言
课程概况,研究历史和现状,学科框架,相关概念
检索理论
IR模型的形式化表示和类型,经典模型
检索语言,互操作,自然语言、本体论
文本检索
经典、现代文本处理和全文文本处理,分类和聚合
网络检索
网络检索、 PageRank和HITS算法
信息自动处理和系统评价
可视化、自动文摘、评价
多媒体检索
模型与语言,标引与检索,并行与分布式检索
数字图书馆
OPAC,文献模型、表达与存取,元数据,云数据库检索技能
9
1. 课程概况(About the course)
授课方式
自学与课堂讨论相结合
课堂讲述和课后练习相结合
讲授内容既包含传统内容,也注意吸收最新研究成果
既考虑入门,也兼顾研究
考核方式
课程论文
按发表要求写作,课程结束,论文录用
成绩构成
平时成绩:课堂演讲讨论与1篇小论文,30%
考试:1篇课程论文(约5000字),70%
10
1. 课程概况——参考书籍及文献
详见教学大纲
Baeza-Yates, R. B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999
王知津等译. 现代信息检索技术.机械工业出版社,2005
苏新宁. 信息检索理论与技术. 科学技术文献出版社,2004
焦玉英.信息检索进展,科学出版社,2003
林培光等,面向Web的个性化语义信息检索技术,中国财政经济出版社,2009
解虹,数字化环境下交互式信息检索,机械工业出版社,2010
于天恩,迅速搭建全文搜索平台,清华大学出版社,2007
11
1.
原创力文档


文档评论(0)