百度大数据应用与实践.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百度大数据应用与实践 产生于互联网的大数据应用,现阶段正在向其他行业领域渗透,成为行业创 新和转型的重要驱动力。根据百度多年来在大数据领域的创新与实践,阐述 了大数据驱动搜索引擎的发展,介绍了百度大数据引擎和行业应用实践。重 点分析了大数据发展的关键因素,并提出了大数据和人工智能是未来信息技 术发展的重要方向。 1 引言 随着移动互联网、物联网的快速发展,信息采集成本不断降低,加速物理 世界向网络空间的量化。数字世界与现实世界的融合过程中产生并积累了大 量的数据。根据国际数据公司 (IDC)发布的研究报告,全球所有信息数据中 90%产生于近几年,数据总量正在以指数形式增长,从2003年的5EB,到2013 年4.4ZB,并将于2020年达到44 ZB,如图1所示。 图1 全球数据总量 数据爆炸将我们推向大数据时代,大数据是新一轮信息技术革命与人类经 济社会活动的交汇融合的必然产物,数据的关联和挖掘将创造新的价值,提 升效率。数据将和自然资源、人力资源一样成为国家最重要的战略资源,将 成为产业升级的重要推动力。 大数据因其蕴含的社会价值和商业价值,已经成为一项重要的生产要素, 大数据的应用将改变传统行业的商业模式,拉动产业升级。数据已经成为传 统行业的核心资产。产生于互联网的大数据应用,现阶段正在向制造业、金 融及商业、医疗卫生、国计民生等各个领域渗透。各行业也已经意识到数据 价值挖掘的重要意义,加速探索并布局大数据应用。越来越多机构、企业都 迫切希望从不同渠道获取的多种类型、结构复杂的大数据中挖掘出有价值的 趋势洞察,快速、准确地制定决策,驱动商业和行业创新。 2 从搜索引擎说起,大数据面面观 2.1 搜索引擎是个天然的大数据服务 大数据是信息技术及其应用发展到一定阶段的“自然现象”,源于信息技 术的不断廉价化以及互联网及其所带来的无处不在的信息技术延伸应用。可 以说大数据应用和技术是在互联网的快速发展中产生的,互联网企业尤其是 搜索引擎公司是大数据实践的先行者和领跑者。搜索引擎连接了人和信息、 人和服务,本身就是一个完美的大数据应用实例,其目的就是为了更好地理 解用户的搜索需求,将信息与用户匹配起来。 百度是当今中国人获取信息的最主要入口,每天响应来自138个国家和地 区的数十亿次搜索请求,覆盖95%以上的中国网民,平均每个中国网民每天 使用10次百度。为了获得更好的用户体验和搜索的精准对接,百度不断在技 术上挑战自我,在搜索的实践中积累了整套大数据的处理和实践技术,占据 了世界领先的地位。同时,百度也积极在大数据的商业实践上不断探索,并 取得了显著的成绩。 2.2 海量的数据资源是大数据实践的基础 百度拥有海量的数据基础,拥有EB级别的超大数据存储和管理规模,并 达到100PB/天的数据计算能力,可达到毫秒级响应速度。百度已收录全世界 超过一万亿张网页,相当于5 000个国家图书馆的信息量总和。同时承担着 每天百亿次的访问请求,可离线完成1000亿网页的处理与分析,时效性网页 从更新到索引只需要几十秒,实现大数据量级下的低延迟和秒级响应。 百度的数据具有实时性和全面性的特点,囊括了全网搜索数据、全网评论 信息、百度内部数据以及第三方合作数据等跨行业、跨地域基础数据,海量 的数据基础是百度引领大数据实践的基础。 2.3 高效的云计算基础设施提供强大的计算能力 面临庞大数据量带来的计算能力和网络带宽的新挑战,百度自主 研发超大规模分布式存储和计算系统,目前能够支持14款用户过亿的 产品。其中分布式存储系统可以存储长文本、语音、视频等异构数据,实现 单集群文件数达100亿;大规模分布式计算系统通过自研技术提升50%以上 MapReduce 的性能,实时流计算系统吞吐量达10GB/s;百度创新性地实现了 基于大数据的智能自动化运维框架,满足超大规模集群运维的需求,实时分 析3万以上监控指标;2 min 内完成分析和故障定位,保证系统可用性为 99.99%。百度是全球首家大规模商用ARM服务器的公司,建立了大规模GPU 并行化平台,单GPU计算能力可比百片CPU,极大程度地降低了能耗和计算 成本。 百度自主研发万兆交换机,逐步从吉比特网络向万兆网络大规模切换,正 在研制的4万兆交换机也已经开始小规模试点和验证,百度的万兆集群是国 内互联网行业首个万兆交换机的规模应用。 基于完全自主知识产权的高性能服务器、整机柜和网络设备等,百

文档评论(0)

177****9147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档