搜索工程实验室六大研究方向.doc

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 针对移动搜索领域的关键技术,建立硏究开发和试验平台,结合移动互联网数据特征、 用户习惯、终端属性、网络条件等多种因素,开展针对移动互联网复杂环境的数据爬取技术、 海量数据分布式存储和处理技术、数据索引及检索技术、融合移动互联网与传统互联网的搜 索内容转换技术、移动搜索终端支持与展现技术、LBS、语音搜索以及图像搜索技术的研究, 实现移动搜索技术研发的重大突破,奠定深圳在移动搜索领域的世界领先地位,推动移动互 联网技术和产业的发展。 四.主要方向.任务与 1.工程实验室主要发展方向 拟建的移动搜索关键技术工程实验室,将以移动搜索引擎大规模数据处理和移动搜索效 果为核心,展开深入的技术和产品的研发。系统整体架构图如图6所示(图中红色为线上系 统,蓝色为线下系统),将以移动互联网复杂环境的数 用户请求 图6移动搜索架构 据爬取、移动互联网海量数据分布式存储和处理、移动互联网数据索引检索及相关性技术、 融合移动互联网与传统互联网的搜索内容转换、移动搜索终端支持与展现技术、LBS、语音 搜索以及图像搜索技术六大关键技术为研发方向。以下分别展开: 方向一:移动互联网复杂环境的数据爬取技术 相对传统互联网,移动互联网的网络环境比较复杂,所以移动爬虫网页爬取技术需要适 应性更强的技术架构(如图7所示,下载器、数据挖掘和分析、数据合并和导入、网页链接 库、调度器等五个部分共同构成了一个基本的下载环L (1 )由于互联网的网页、新闻、音乐、视频、游戏、软件等信息非常多,爬取技术需要 高效、准确和稳定地从这些海量信息里面抓取有用的信息。和web网络不同,基于移动互联 网的wap网络本身有其独特的特点,由于wap网络本身偏资源,内容简单,其互联互通的 特性并不明显”因此pagerank的可计算性不好,这直接影响到爬虫的下载策略,因此其采 用什么样的rank计算算法不同于互联网爬虫,需要重新设计适用于移动互联网的rank计算 算法。 (2 )数据质量是爬虫很重要的指标,由于wap互联网的复杂性,充斥大量的垃圾数据、 低质量数据、无效数据、死链数据和死站数据、重复数据、黄色页面、spam数据等,因此 对这些数据的分析非常重要,从这些角度对页面和爬虫系统进行分析,是一个爬虫系统非常 重要的课题。解决这些问题采用的方法是通过机器学习的手段进行数据挖掘和数据分析,对 于某些网站需要进行定点的人工配置和监控。 (3)移动搜索对于资源类网页需求很高,这些爬取需要精确的掌握,对于手机专用的 wap网站和wap网页,比如下载、音乐、视频、图片、游戏、软件类等资源类信息要进行 专门的爬取,这需要通过大规模的机器学习、数据挖掘和数据分类,分析岀相关的数据并指 导爬虫有针对性的下载。 下载器调度器习网页库V )图 下载器 调度器 习网页库V ) 图7爬虫基本结构 方向二:移动互联网海量数据分布式存储和处理技术 移动互联网中的数据多种多样,且充满大量重复无效信息,搜索引擎需要对海量数据进 行大规模的存储和处理分析”另外,搜索引擎对于海量数据还有非常强的时效性和并发性等 要求,因此搜索引擎对数据存储和处理系统有着独特的要求,需要一个方便的海量数据的存 储平台。这个海量存储平台是一个分布式系统,其系统结构图和应用图如图8.1和图8.2所 ClientClientwDate Servei0 wData ServeiData ServerData Servei Client Client wDate Servei 0 wData Servei Data Server Data Servei 图8丄 海量数据存储系统结构图 图8.2海量数据存储系统应用架构图 由于海量数据的存储和处理需要遵循高性能、简单、可靠、可恢复、可用性等基本原则, 为此,需要解决如下几个关键问题。 (1 )数据的分布式存储算法。搜索引擎需要并发批量的从存储系统读写数据,同时存储 系统也需要支持Key-value ( kv )存储模式。分布式存储算法将遵循简洁原则,以充分保证 在数据的复制、备份和迁移过程中操作的简单、透明、可管理等。本项目将创造性的采用存 储虚拟化技术,该技术可以动态的扩展存储空间”有效地管理分布式机器和存储设备,并且 有利于数据的复制、迁移等操作,简单可靠。所有的数据支持结构化数据的批量读写,同时 支持按照kv模式进行索引。考虑采用类似Bigtable的业务访问模式。数据在逻辑上的访问 路径被分解为 key-bucket-family-bigfile-(indexfile/ datafile)o 所有的数据按照 key/family/column可以批量访问。对结构化数据访问的支持需要做到动态可扩展,数据可 以动态的增加一个family或一个column而不影响系统性能。 (2)数据的修

文档评论(0)

ggkkppp + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档