网站大量收购独家精品文档,联系QQ:2885784924

国外近十年国外文献计量分析.docxVIP

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国外近十年国外文献计量分析 近年来,随着信息技术的快速发展,各种网络应用的数据规模迅速增加。要满足大量数据存储和分析需求,需要完成大量计算机协同工作来完成前所未有复杂的任务。ha是python软件基金会开发的一个开源分布计算平台。它的核心是hdfs和receive。hdfs具有高容错误和高可扩展性的优点。用户可以在价格低廉的服务器上配置自己的算法,形成分布系统。对于3d迁移的分布规律模型,用户可以轻松组织计算机资源,建立自己的分布计算平台,完成大规模数据的处理。对于当前应用程序较多的sql关系数据库,hdfs提供了一种通用的数据处理技术。大量低水平服务器被转换成大型本地服务器,使用约束值管理关系表,使用函数编程替换声明表,并使用在线批处理。作为编程模型的random,分布网格方程分为两个步骤:映射(映射)和random(简化)。基于random分段模型的分布式程序可以将任务分发给成千上万的拥有机器的群体,以高容错误的方式管理大量数据集。hdfs和receive共同构成了ha分布系统体系的核心,并完成了大规模分布趋势的计算任务。现在,ha群体已执行许多任务,如web搜索、广告系统、数据分析和机械学习。本文在一定程度上分析了ha应用的多个领域的应用,并对其进行了分类和总结,并希望为每个部门的开发人员提供一些参考。 1 研究企业主要来源 笔者在ACM数字图书馆中以Hadoop为主题检索获得218篇论文,发表年份分布在2007年到2011年之间,统计结果见表1,从发展趋势上看2008年以后随着云计算的兴起,Hadoop作为最重要的开源云计算技术成为各方面的研究热点. 从地域分布来看美国约占76.15%,这是因为推动云计算产生和发展的企业象Google、雅虎、微软等主要来自美国.其他国家研究较少合计仅占16.06%.详细分析见表2. 从论文作者单位来看研究者主要在高校和企业,来自高校的论文占55.5%,来自企业的占33.03%,两方面合作撰写的占11.47%.这表明Hadoop在产业界和学术界都得到普遍重视.具体统计见表3. 文献统计表明,对Hadoop进行研究的高校中美国的加利福尼亚大学、马里兰大学、伊利诺斯州立大学和休斯顿大学等发表论文较多,德国的RWTH Aachen大学,韩国汉城国家大学,新加坡国立学院,希腊雅典大学,英国格拉斯哥大学等也有一些研究成果.企业中主要有雅虎、微软、Google、IBM、Facebook和惠普等,其他机构还有一些数据分析公司、研究所和技术协会等.具体统计见表4. 从研究内容上分析总体上可以分为理论和应用两大方面.从统计结果上看理论研究占42.2%,应用研究占57.8%,理论研究主要是性能优化和任务调度,应用研究主要是数据分析和数据查询.具体见表5. 2 ha理论研究 2.1 与无间关系数据库的比较,主要的非结构化数据处理设计在多源式电 Hadoop是Google云计算技术的开源实现,主要用于处理大规模非结构化数据.传统数据处理多采用关系数据库系统,关系数据库擅长结构化数据处理,经过多年的发展已经具有广阔的应用范围.但是由于业务发展和数据规模的快速增加,SQL等传统的关系数据库在查询效率上逐渐不能满足需求,而且建设和维护的成本高.Map Reduce擅长对半结构化或非结构化数据进行复杂的分析,容错能力强而且其基础设施可以灵活扩展.一些企业采用并行关系数据库提高数据处理速度,但是并行RDBMS系统设计和建设困难,不及Hadoop灵活,建设成本高,而且容错能力不足.大量非结构化数据分析应用表明Hadoop与目前两种主要的并行DBMS相比速度大约快3-6倍.例如Clustera是基于关系数据库的集群管理系统,具有良好的扩展性能,但是在大规模非结构化数据处理方面性能远不及Hadoop效率高.除了应用类型方面的比较外研究者还将Hadoop与同类开源云计算系统进行了比较.例如Sector/Sphere是一个类似Hadoop的开源云计算系统,它以分布式文件系统Sector为基础进行数据密集型计算,使用一个叫做UDT的高速传输协议,支持用户定制的管理功能.它不按照块大小确定任务数,多在广域网上跨越多个数据中心部署. 2.2 基于含信息流的分布式节点仿真 在Hadoop中一项工作被分割成许多小块,这些小块叫做任务.不同的任务被分配到不同节点上进行计算,因此分布式系统设计成功的关键是建立一种高效的任务调度机制.这方面需要解决两个问题,一是如何将任务优先分配给空闲的机器,使所有的任务公平分享系统资源;二是如何尽量将map任务分配给Input Split所在的机器,目的是减少不同节点之间的数据传输.一种有效的方法是指定动态优先权,随时间管理节点并指定优先权可以自动地侦测和消除一项工作的瓶颈,给任务提供均衡的计算能力以适应不同

文档评论(0)

xcwwwwws + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档