搜索引擎技术演示文稿.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 首风格基本一致,简单明了 * 状态栏:查询短语,查询时间,找到的相关文档数 结果栏: 标题,摘要,查询词高亮显示,历史网页,相同站点内的结果聚类显示 在google,baidu,tianwang上检索“搜索引擎新技术”,不理想 检索“search engine new technology”,同样不理想,如果不加双引号,检索结果中与我要找的不相关, 增加了双引号,baidu,tianwang都没有匹配的结果了 也许有好的结果页面,但是我们没有找到。 New technology could speed the collection and categorizing of information from the Web * 1。CNNIC截止在2004年6月底的统计表明, (/download/2004/2004072002.pdf) 互联网用户使用电子邮件和搜索引擎的比率分别为84.3%和64.4%,在近30种网络服务中 高居前两位。用户对搜索引擎的满意度也很高,其中,对搜索引擎服务表示非常满意和 比较满意的分别为26.9%和52.5%(居各项服务之首),表示不太满意和很不满意的仅为 2.8%和0.6%(居各项服务之末)。 * 现代大规模高质量搜索引擎一般采用三段式的工作流程,即: 网页搜集,预处理,和查询服务 1) 定期搜集,每次搜集替换上一次的内容,我们称之为“批量搜集”。 开始时搜集一批,往后只是(1)搜集新出现的网页,(2)搜集那些在上次搜集后有过改变的网页,(3)发现自从上次搜集后已经不再存在了的网页,并从库中删除。我们称之为“增量搜集”。 “目标网页”指的是搜索引擎设计覆盖的网页范围。例如Google是全球,天网是全中国。 2) 对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了 . 天网在2003年的一次大规模统计分析表明,网页的重复率平均大约为4。 大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合中出现的文档频率(document frequency 或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。 搜索引擎返回给用户的,是一个和用户查询相关的结果列表。列表中条目的顺序是很重要的一个问题。 3) 搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题,网址和摘要。 * Just look, and skip * The goals of web pages storage are long-time preservation and multi-application oriented. So the format should be simple enough and convenient enough to use. Yet we face the two challenges, the size of raw web pages is not regular – it may range from lKB to several MB. An individual file will usually require more space to store than the true size of the file, because the block size is more than one byte, and a block is never divided between multiple files. Suppose the size of a page file is 6KB and the block size is 4KB, the file will occupy 2 blocks. If the space waste in storing a single file will be 2KB, how much will cost in storing numerous files? the life of storage device is not unlimited and the system software is not absolutely robust, so the stor

您可能关注的文档

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档