- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代信息检索 陆铭richard.lu@ 1. 课程概况(About the course) 设课目的 市场发展的需求 用户需要信息检索技术 互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术 信息检索技术可以创造利润,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu都加入到搜索技术的竞争 人才的竞争 搜索的技术人才出现缺口 2000年的网络和现在的互联网有什么不同,搜索引擎在其中占什么位置? 网络爆炸 9.6 million web servers as of Dec 1999 72.4 million web sites as of Jan 2000 275 million people online as of Mar 2000 800 million publicly indexable pages 180 million images 30% web pages are copied or mirrored 1 billion hyperlinks 网络信息资源的挑战 数量巨大 No single search engine indexes more than 16% of web sites All search engines combined covering only 42% 极端异质 Variable information value Variable length Often containing grammatical mistakes Content may be outdated, false, or unreliable Multiple data formats Multiple languages and alphabets 速度问题 15,000 ~ 20,000 search queries requested per minute Internet 利用量 Internet 用户: 30 to 300 million in 2001 Internet 流量: 每 70 天翻一番 电子商务: 2002年1.3 万亿美元 1997年PC台数销售量超过 TV 1999年世界范围静态信息生产量 (TB) 数字化信息量举例 音乐作品(莫扎特):约100MB 报纸(华尔街杂志):100MB/年(文本) 卡片目录(美国国会图书馆):17GB 广播(WABC) :270GB/年(未经压缩) 网络论坛(Netnews):300GB/年 地区图书馆(加州大学图书馆):1.4TB(图书扫描版) Internet出版(WWW):1997年约4TB 电视(CNN新闻):1GB/1小时, 6TB/年(经压缩) 录像带出租(Blockbuster Video):9TB 科研图书馆(美国会图书馆):全部图书馆数字化20TB 来源:美国伯克利加州大学教授Peter Lyman和Alex Internet公司总裁Brewster Kahle所著《文化制品数字化存档行动纲要》 信息检索的问题 信息超载 信息太多, 需要过滤 检索结果垃圾太多, 有害信息太多 查找非结构信息有困难 多数数据库在结构化字段上工作 多数商业信息是非结构化的. 报告、电子邮件、来往公函 ... 美国商业每年产生4500亿份文件 波音747文件比飞机重量还重 标引是主观的 标引者之间不一致, 经验统计表明标引者之间仅20% 相同 作者与标引者之间、检索者与用户之间不一致 信息检索的问题 语言问题 一词多意 Bank: a river boundary or a savings and loans? DNA: microbiology or Digital Equipment Corporation’s Network Architecture? Free Rider: Economic game theory or urban transportation systems? 一意多词 car, automobile, vehicle, sedan, horseless carriage... 1. 课程概况——课程内容体系 引言 课程概况,研究历史和现状,学科框架,相关概念 检索理论 IR模型的形式化表示和类型,经典模型 检索语言,互操作,自然语言、本体论 文本检索 经典、现代文本处理和全文文本处理,分类和聚合 网络检索 网络检索、 PageRank和HITS算法 信息自动处理和系统评价
文档评论(0)