hadoop在百度.pdf

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop在百度

HadoopHadoop在百度在百度 wangshouyan@ 系统部系统部 2008.11 主要内容主要内容 • 百度在hadoop上的应用 • 对对hadoophadoop进行的改进和调整进行的改进和调整 • 目前面临的问题及未来的改进计划 • hypertable相关研究和应用 百度在百度在hadoophadoop上的应用上的应用 • 互联网领域的平台需求 • 应用范畴应用范畴 • 应用方法 互联网领域的平台需求互联网领域的平台需求 应用范畴应用范畴 1 日志存储和统计 22 网页数据分析和挖掘网页数据分析和挖掘 3 商业分析 4 在线数据分析反馈 5 用户户和网页聚类类 应用方法应用方法 对对hadoophadoop进行的改进和调整进行的改进和调整 • Mapp-reduce策略调整 • HDFS效率和功能改进 •• 资源使用控制资源使用控制 mapmap-reducereduce策略调整策略调整 1 限制某某作业处于运行状态的任务务数 22 调整预测执行策略调整预测执行策略,,控制预测执行量控制预测执行量。。 3 根据节点内存状况调度 4 平衡中间结果输出 HDFSHDFS效率和功能改进效率和功能改进 11 权限控制权限控制 22 分区与节点的独立性分区与节点的独立性 3 VFS的posix兼容性 资源使用控制资源使用控制 1 应用物理内存控制-修改linux内核,对进程独立限制 22 对计算资源分组调度对计算资源分组调度,实现存储共享实现存储共享,计算不相干计算不相干 扰。 3 大块文件系统大块文件系统 目前面临的问题及未来的改进计划目前面临的问题及未来的改进计划 Map-reduce效率问效率问题 HDFS效率和可靠性问题 资源利用效率问题 MapMap-reducereduce效率问题效率问题 1 shuffle效率效率问题:减少IO次数,过程并行 22 sortsort的效率和可配置性的效率和可配置性 3 streaming利用管道传输的效率问题 HDFSHDFS效率和可靠性问题效率和可靠性问题 1 随机访问效率 22 数据写入的实时性数据写入的实时性 资源利用效率问题资源利用效率问题 hypertablehypertable相关相关 • 应用方法 • 完善和改进完善和改进 • 与open source合作 应用方法应用方法 完善和改进完善和改进 1 recovery 2 资源使用情况 3 监控 与与openopen sourcesource合作合作 1 bug 22 patchpatch 3 contribute Q&AQ&A

文档评论(0)

牛X文档 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档