索引数据库与搜索引擎分析.ppt

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
指定文件类型 ③特色 直达与检索词最相关的网页 网址: 百度(Baidu)是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(Chianren)、央视国际、腾讯等。 案例:百度 ①检索范围 ②检索方式 简单检索 高级检索 简单检索 逻辑“与”:两词间加空格 逻辑“或”:两词间加“|”(前后加空格) 逻辑“非”:两词间加“-”(“-”号前加空格) 强制检索:双引号 指定网域:site: 指定文件类型:filetype:文件类型 ③特色 网页快照 如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面; 如果原地址打开很慢,那么可以直接查看Google缓存页面,因为Google服务器速度极快。 智能化关键词输入工具 拼音汉字自动转换 自动纠错 简繁体中文自动转换 【补充】框计算 基本概念 技术框架 实现过程 基本概念 框计算是由百度董事长兼首席执行官李彦宏在2009年8月18日“百度技术创新大会”上提出的全新技术概念。 用户只要在“框”中输入服务需求,系统就能明确识别这种需求,并将该需求分配给最优的内容资源或应用提供商处理,最终精准高效地返回给用户相匹配的结果。 这种高度智能的互联网需求交互模式,以及“最简单可依赖”的信息交互实现机制与过程,称之为“框计算”。 技术架构 实现过程 首先,用户的任意一个需求被提交到“框”里; 然后,“框计算”经过一系列复杂的需求分析,包括语义分析、行为分析、智能人机交互技术分析和海量计算,将用户的需求分发给“框计算”后台单个或多个对应的数据/应用所响应; 第三,“框计算”背后的资源平台是开放的,框计算平台提供了大量即插即用的接口,各种数据和应用可以主动与框计算平台对接,使自己有机会来响应框所收集到的需求; 最后,用户“即搜即得、即搜即用”地获得精准、可靠、稳定的信息或应用需求结果。 * * 图引用:yhf’s ppt《可扩展Web信息搜集系统的设计、实现与应用初探》 王继成《基于元数据的web信息检索技术研究》,南大 其中的文档检索是典型的IR系统,SE使用的检索模型:扩展的bool模型, it’s the fact anyway! 扩展之一:扩展的bool运算符,支持自然语言输入,“”定义短语,ADJ; 默认空格表示AND等 扩展之二:辅助权值计算,用于结果排序 》》简介结束,下面开始从系统performance出发,介绍各个研究问题、研究现状、方法。 * The goals of web pages storage are long-time preservation and multi-application oriented. So the format should be simple enough and convenient enough to use. Yet we face the two challenges, the size of raw web pages is not regular – it may range from lKB to several MB. An individual file will usually require more space to store than the true size of the file, because the block size is more than one byte, and a block is never divided between multiple files. Suppose the size of a page file is 6KB and the block size is 4KB, the file will occupy 2 blocks. If the space waste in storing a single file will be 2KB, how much will cost in storing numerous files? the life of storage device is not unlimited and the system software is not absolutely robust, so the storage format should have a recovery property to resist the unexpected hardware or software failure and minimize data losing. If parti

文档评论(0)

琼瑶文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档