01信息检索概述10PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
01信息检索概述10PPT

* * * * * * 军事情报 国外军事情报的跟踪汇总 重点针对国外互联网进行过滤跟踪,对重要资料进行分析汇总,辅助军事决策 国内军事情报的反泄露 发现和拦截泄露军事情报的邮件 隐藏于普通文本中的军事情报的过滤技术 文本水印 本章小结 介绍了信息检索的定义以及与相关领域的区别与联系 介绍了信息检索的体系结构 介绍了信息检索的难点与发展趋势 实验室主页: 哈工大信息检索研究室 * * * * * * * * * * * * * * * * * * * * * * * * * * 服务模式 由单一向综合过渡 Google的gtalk,gmail MSN的搜索等 由通用到专业 垂直搜索 由竞价排名到封口费 一定程度上影响搜索引擎的公正性 IR面临的挑战 Web 搜索的事实是怎样的? 短的query 英文: 2.35 words (Altavista, 1998) 中文: 3.55 chars (1999) 偏精确率的检索 用户常常浏览第一页的结果 每个用户的查询次数: 数据来源:网络指南针,10,2439个用户,81,0386个查询 每个用户查询的网页: 每个查询的词数: 可以看到: Query Document Similarity A huge number of pages with matched query terms on the Web Query = “information retrieval” 经过文本相似度计算获得的排序对于短Query有些力不从心,导致检索结果不尽人意 短 Query 检索 Query Document Query Space Doc Space Similarity Query = “information retrieval” 用户需求 文档的权威性 Query Document Query Space Doc Space Similarity Concept: “IR book “ “IR systems”, “SIGIR Web sites” Authority: Query = “information retrieval” Representative IR book 解决方案:智能信息检索 考虑词汇的意义(meaning) 考虑词汇的顺序(order) 根据直接或间接的反馈适应用户的需求 考虑信息来源的权威性(authority) 检索结果的呈现 检索结果的表现 Web 检索结果是很长的列表,用户很难在概念层浏览结果 检索结果分门别类 信息进一步优化 间接消歧 检索结果聚类 检索结果聚类 检索结果聚类 检索结果后聚类 从呈现形式到内容的变化——内容整合 信息抽取 美国科学家目前正在研究一种新型“搜索引擎”—搜得,表示它能像拖网一样“捞到”所需资料网页,然后以目录表格形式将其进行整理 信息融合 单文档文摘 多文档文摘 国内外主要搜索引擎 中国搜索引擎市场 ????????????????????????????????????????????????????????????????????????????????????????????????????????????? 搜索引擎成功样例:全球最大搜索引擎——Google 据预计,全球搜索市场3到5年后将达70亿美元以上,Google在各种搜索引擎中排名第一。 Google网址: 技术创业 六年成长史 创始人是两位斯坦福大学学生,而立之年即成为百亿富翁 每个月有数亿人使用 走向垄断? 参股百度 左右网民的价值取向 受商业利益驱使,未来很难保证客观公正性,竞价排名 Baidu 2000年1月,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士)在北京中关村创立了百度(Baidu)公司 2001年8月发布B搜索引擎Beta版 2001年10月22日正式发布Baidu搜索引擎。 Baidu虽然只提供中文搜索,是最大的的中文数据库。 百度 天网 国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果 由北大计算机系网络与分布式系统研究室开发,于1997年10月29日正式在CERNET上提供服务 2000年初成立天网搜索引擎新课题组,由国家973重点基础研究发展规划项目基金资助开发,收录网页约6000万,利用教育网优势,有强大的ftp搜索功能 中文搜索引擎 中搜 / 全名“中国搜索”,原名“慧聪”,领跑桌面搜索 搜狗 新浪:爱问 搜搜 腾讯旗下的搜索引擎 网易 有道 搜索引擎的现状 随着百度上市和Google正式进入中国,国内搜索引擎市场竞争格局将发生变化。 各大搜索引擎厂商营收稳步上升,而各

您可能关注的文档

文档评论(0)

erfg4eg + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档