计算机学科导论第3章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机学科导论第3章

* * * * * * * * * * * * * 信息检索原理与应用 * 搜索引擎的基本原理 信息检索原理与应用 * 预处理 构件文档集合的索引——倒排索引 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。 倒排索引被广泛用于搜索引擎系统对海量网页的存储,其效率要高于其它索引结构。 搜索引擎的基本原理 信息检索原理与应用 * 预处理 构件文档集合的索引——倒排索引 原始文档 文章1:Tom lives in Guangzhou, I live in Guangzhou too. 文章2:He once lived in Shanghai. 关键词 文章1:[tom] [live] [guangzhou] [i] [live] [guangzhou] 文章2:[he] [live] [shanghai] 搜索引擎的基本原理 关键词 文章号 [出现频率] 出现位置 guangzhou 1[2] 3, 6 he 2[1] 1 i 1[1] 4 关键词 文章号 [出现频率] 出现位置 live 1[2],2[1] 2, 5, 2 shanghai 2[1] 3 tom 1[1] 1 信息检索原理与应用 * 查询 利用倒排索引文件,迅速给出相关的文档集合 主流搜索引擎的查询模式:用一个词或者短语直接表达信息需求,相关的网页中含有该词或者该短语中的词 容易实现,语义性较弱 “如何学好C/C++?” 从文档集合中产生一个文档排序列表 主流搜索引擎的结果展示模式:网页按照重要程度和相关程度进行排序(排序的因素一般有上百种) 据统计,搜索引擎用户平均翻页次数小于2 文档摘要 搜索引擎的每条结果:标题 + 网址 + 摘要 搜索引擎的基本原理 信息检索原理与应用 * 查询 搜索引擎的基本原理 信息检索原理与应用 * Yahoo! 1994年4月 美国斯坦福大学电机工程系的博士生:David Filo和Jerry Yang YAHOO = Yet Another Helpful Operation Origin YAHOO = Yet Another Hierarchical Officious Oracle YAHOO = Yet Another Hierarchically Organized Oracle YAHOO = Yet Another Hypertext Online Organizer YAHOO = You Always Have Other Options 常见的搜索引擎 信息检索原理与应用 * Yahoo! 常见的搜索引擎 信息检索原理与应用 * Google 1998年9月7日,加州一个车库 美国斯坦福大学计算机系的博士生: Sergey Brin和Larry Page googol 1个Googol所代表的数字为1后面加上 100 个零。 Googol 是一个非常大的数字,宇宙中没有什么物质的数量可以达到1个 Googol -- 无论星星、尘埃还是原子。 常见的搜索引擎 信息检索原理与应用 * Google 常见的搜索引擎 信息检索原理与应用 * Ask 1996年6月 Ask?Jeeves被设计成回答用户提问的自然语言引擎。搜索时,它首先给出的是数据库中可能存在的答案,然后才是网站链接。 常见的搜索引擎 信息检索原理与应用 * Ask 常见的搜索引擎 信息检索原理与应用 * Vivisimo 1998年美国国家科学基金会资助的一个实验项目 采用了一种专门开发的启发式算法来集合或聚类原文文献 完全自动化的,不需要人为进一步干扰,也不需要维护 常见的搜索引擎 信息检索原理与应用 * Vivisimo 常见的搜索引擎 * * * * * * * * * * * * * * * * * * * 信息检索原理与应用 * 信息检索的基本概念 信息检索的历史 搜索引擎的基本原理 常见的搜索引擎 * Web is Nothing without Search 信息检索原理与应用 * 信息过载(Information overload) “…全世界每年产生1到2EB(1EB=1024PB, 1PB=1024TB)信息,相当于地球上每个人大概产生250MB信息。其中纸质信息仅占所有信息的0.03%...” Tom Landauer认为人的大脑只能存储200M信息量,一辈子只能接触6G的信息量。 “人类目前至

文档评论(0)

dreamzhangning + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档