搜索引擎v技术方案.ppt

下载文档 降价啦

21
0
约4.07千字
约 35页
2016-11-25 发布于湖北
举报
版权申诉
保障服务

搜索引擎v技术方案.ppt

1、本文档共35页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

12.3 物联网搜索引擎物联网时代搜索引擎的新思考从智能物体角度思考搜索引擎与物体之间的关系，主动识别物体并提取有用信息。从用户角度上的多模态信息利用，使查询结果更精确，更智能，更定制化。本章小结内容回顾本章介绍了搜索引擎的发展历程，重点讨论了搜索引擎的体系结构（信息采集，索引技术，搜索服务），并提出了物联网背景下搜索引擎的新思考。重点掌握掌握Web搜索引擎的三大模块（网络爬虫模块，索引模块，搜索模块）的作用。了解搜索引擎需要解决的三个问题（响应时间，关键词搜索，搜索结果排序）。本章小结重点掌握（续）掌握搜索引擎信息采集的基本流程以及网络爬虫程序的基本结构和工作流程。理解优化网络爬虫程序的途径。掌握常见的网页抓取算法的特点和流程。了解索引技术预处理的困难，了解倒排文件模型。举例说明Google Web搜索引擎的架构。 Thank you! 第12章搜索引擎内容提要提供“普适性的数据分析与服务”的搜索引擎才能诠释出物联网“更深入的智能化”的内涵。本章将介绍搜索引擎的基本概念，体系结构和相关技术。第11章介绍了海量信息存储技术和数据中心物联网对海量数据存储的需求三种网络存储体系结构数据中心的基本概念以及典型的数据中心如何降低数据中心的成本本章重点介绍搜索引擎的基本概念，包括发展历程，体系结构（信息采集，索引技术，搜索服务），并针对一个类Google Web搜索引擎进行简要分析。内容回顾 12.1 搜索引擎简介 12.2 搜索引擎体系结构 12.3 物联网搜索引擎搜索引擎有哪些？有哪三大模块组成？本章内容 12.1 搜索引擎简介 Web搜索引擎一个能够在合理响应时间内，根据用户的查询关键词，返回一个包含相关信息的结果列表（hits list）服务的综合体。传统的Web搜索引擎是基于查询关键词的，对于相同的关键词，会得到相同的查询结果。常见Web搜索引擎搜索引擎的发展搜索引擎的起源可追溯到1992年，由NCSA维护的“What’s NEW!”页面。第一个原始搜索引擎W3Catalog（1993.9）第一个Web机器人程序“World Wide Web Wanderer”（1993.6 MIT）里程碑： WebCrawler（1994），Lycos（1994）商用 Google的建立：斯坦福博士生Larry Page 和 Sergey Brin 创立了Google 网络爬虫模块：主要功能是通过对Web页面的解析，根据Web页面之间的连接关系抓取这些页面，并储存页面信息交给索引模块处理。索引模块：主要完成对于抓取的数据进行预处理建立关键字索引以便搜索模块输出。搜索模块：对于用户的关键词，根据数据库的索引知识给出合理的搜索结果。 Web搜索引擎的结构 Web搜索引擎的工作模式 12.1 搜索引擎简介 12.2 搜索引擎体系结构 12.3 物联网搜索引擎搜索引擎具有怎样的体系结构和相关技术？本章内容 Web搜索引擎的3个重要问题响应时间：一般来说合理的响应时间在秒这个数量级关键词搜索：得到合理的匹配结果搜索结果排序：如何对海量的结果数据排序搜索引擎的体系结构信息采集索引技术搜索服务体系结构：信息采集搜索引擎体系结构信息采集索引技术搜索服务 Web搜索引擎的信息采集模块主要功能：Web上收集页面信息，即Web机器人（爬虫）程序基于超文本传输协议（Hypertext Transfer Protocol, 简称HTTP）体系结构：信息采集搜索引擎体系结构信息采集索引技术搜索服务典型的基于超文本传输协议的网络应答网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序根据HTTP协议，发送请求，并通过TCP连接接受服务器的应答。由于Web搜索引擎需要抓取数以亿计的页面，所以建立快速分布式的网络爬虫程序才能满足搜索引擎对性能和服务的要求，其物理实现可能是一组终端。网络爬虫程序的工作模式搜索引擎体系结构信息采集索引技术搜索服务爬虫程序物理设备架构图网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务网络爬虫程序的基础结构搜索引擎体系结构信息采集索引技术搜索服务首先网络爬虫程序从URL链接库读取一个或多个URL作为初始输入并进行域名解析然后根据域名解析结果（IP）访问Web服务器，建立TCP连接，发送请求，接受应答，储存接受数据，并分析提取链接信息（URL）放入URL连接库里。爬虫程序递归执行该过程直到URL链接库为空。信息采集优化搜索引擎体系结构信息采集索引技术搜索服务网络连接优化策略持久性连接多进程并