- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索发展过去现在和未来
信息检索与内容安全专业委员会集体讨论稿
信息检索技术的发展——
过去、现在和未来
信息检索
• 信息检索:
– 从数据中找到与用户需求相匹配的内容
• 信息检索的发展
– 紧随着用户需求的发展与变化
– 随着信息技术的爆炸式发展而产生质的飞跃
– 在不同的发展阶段遵循不同的商业模式
Figure Copyright by TREC
发展阶段1—— 数字图书馆时代
• 需求
对文档全文内容的快速检索
1945: Vannevar Bush’s article
“As we may think”
目标:未来人们能够实现对海量图书
资源(1M)进行快速的访问
“A library of a million volumes could
be compressed into one end of a desk…
…It may be consulted with exceeding
speed and flexibility.”
发展阶段1 —— 数字图书馆时代
• 技术:草创时期
– 数据库查询 自由文本的全文检索
– 倒排索引技术
– 词频与权重(term significance )
Frequency/Informativity
• Luhn 1957
frequency informativity
• 后来发展出TFIDF权重计算方法
LUHN, H.P., A statistical approach to
mechanised encoding and searching of
library information, IBM Journal of Research
and Development, 1, 309-317 (1957).
1 2 3 … Rank
Used by Luhn for term significance
发展阶段1 —— 数字图书馆时代
• 技术:检索模型
– 集合论模型
• Boolean models (e.g. Lancaster et al., 1973)
– 代数模型
• Vector Space models (e.g. Salton et al., 1983)
– 概率模型
• RSJ model (Robertson Sparck Jones,1976)
• BM25 (Robertson et al., 1994)
发展阶段1 —— 数字图书馆时代
• 评价
– Cranfield评价体系 (Cleverdon,1950’s )
– 关注“relevance”
文档评论(0)