大数据计算理论基础[2014-05]陈国良程序.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * 完全支撑点空间 把所有的点都选为支撑点:P=S,M→Rn IS,d(S) = {xS|xS = IS,d(x) = (d(x,x1), d(x,x2), … , d(x,xk)), x∈S} 5、支撑点空间:度量空间的坐标化 * x1 x2 …… xn x1 d(x1, x1) d(x1, x2) …… d(x1, xn) x2 d(x2, x1) d(x2, x2) …… d(x2, xn) … …… …… …… …… … …… …… …… …… xn d(xn, x1) d(xn, x2) …… d(xn, xn) 6、数据划分技术 在度量空间中,我们可按数据到支撑点的远近距离进行如下3种划分 超平面(Hyper-plane)划分 选择中心点C1和C2; 划一超平面L(将C1和C2的连线垂直平分); 数据按距离C1和C2的远近划分之。 * C1 C2 L Left of L Right of L C1,C2 6、数据划分技术 有利点(Vantage Point)划分 选择有利点VP1,以VP1为圆心、R1为半径画圆; 数据按位于圆内、外划分之; 再从圆内、外分别选择有利点VP21、VP22,分别以R21和R22为圆心画圆。 * d(VP1, x)≤R1 d(VP1, x)R1 VP1,R1 d(VP22, x)≤R22 d(VP22, x)R22 VP22,R22 … … VP21,R21 R22 R1 VP1 R21 VP21 VP22 q r 6、数据划分技术 包络球(Bounding Sphere)划分 选择中心点C1,以其为圆心、R(C1)为半径画一圆,包含了所有数据; 在上述圆内另选中心点C2、C3,再以其为圆心,以R(C2)和R(C3)为半径画圆,将数据划分成两部分;此两圆均在以C1为圆心的圆内,且所有点均在两圆内; 因为以C2、C3为圆心的圆是从以C1为圆心的圆衍生出来的,划分可能重叠是其明显缺点。 * C1 C2 C3 C1,R(C1) C2,R(C2) C3,R(C3) 7、大数据NC计算理论 NCi类(Nick’s Class)的电路定义: NCi类均衡电路定义:NCi可定义为可计算的一组函数,可由一簇均衡电路输出的一组布尔函数值表示,其中电路有多项式数目个门(至多两输入),深度为O(login),i≥1。(电路越深,表示电路的级数越多) RNC(Randomized NC)类概率电路定义:它是由一簇概率电路可计算的一组函数,此电路中除了通常的门以外,还有一个具有随机概率“正确”与“错误”的输出门,电路计算正确的概率至少是1/2。 NC类的层次 NCi类层次可定义如下: NC1 ? NC2 ? … ? NCi, NC类一般定义: NC = ∪k≥1NCk * 7、大数据NC计算理论 大数据NC-类计算 NC类与PRAM模型关系:定义EREWk、CREWk和CRCWk分别由使用多项式数目的处理器、运行时间为O(logkn)对数多项式的并行计算模型PRAM-EREW、PRAM-CREW和PRAM-CRCW可计算的一类函数,它们之间关系如下: NCk ? EREWk ? CREWk ? CRCWk ? NCk+1 大数据NC-类计算:采用上述方法,首先将大数据集D划分成多项式数目个子集Di(i=1,2,···,Polynomial Size);然后对Di在对数多项式时间(Polytime)内施行并行处理。如果上述步骤证明是可行的,则称此类数据计算为NC-类计算。 注1:NC类在不同的并行计算模型上是保持不变的。 注2:变量x的多项式通式为: f(x) = a1x1+ a2x2+…+ aixi+…+ anxn 对数logx的多项式通式为: f(x) = a1logx+a2log2x+…+ailogix+…+anlognx * 8、大数据计算模式 基于MR的流计算 MR是针对静态批处理计算的,启动MR时,计算数据均已到位(例如:保存在DFS中的数据);而流数据是源源不断流入系统的,显然传统的MR不行,改进的方法包括: Micro-Batch MR:首先把流式数据按到达时间的先后形成一些小的静态数据;然后定期启动MR施行微批处理计算。 流水MR:通过作业内或作业间数据传输的流水线,实现Online Hadoop,即实现了Map到Reduce之间数据的Pipeline,使得Map产生部分数据后就可送到Reduce端,以便Reduce可提前或定期计算。 动态加入输入:数据未完全到位时,提前向运行中的作业加入新的输入数据,这样

文档评论(0)

4753333 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档