大数据计算理论基础[2014-05]陈国良程序.ppt

下载文档 降价啦

6
0
约 34页
2016-12-02 发布于湖北
举报
版权申诉
保障服务

大数据计算理论基础[2014-05]陈国良程序.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * * * * * * * 完全支撑点空间把所有的点都选为支撑点：P=S，M→RnIS,d(S) = {xS|xS = IS,d(x) = (d(x,x1), d(x,x2), … , d(x,xk)), x∈S} 5、支撑点空间：度量空间的坐标化 * x1 x2 …… xn x1 d(x1, x1) d(x1, x2) …… d(x1, xn) x2 d(x2, x1) d(x2, x2) …… d(x2, xn) … …… …… …… …… … …… …… …… …… xn d(xn, x1) d(xn, x2) …… d(xn, xn) 6、数据划分技术在度量空间中，我们可按数据到支撑点的远近距离进行如下3种划分超平面（Hyper-plane）划分选择中心点C1和C2；划一超平面L（将C1和C2的连线垂直平分）；数据按距离C1和C2的远近划分之。 * C1 C2 L Left of L Right of L C1,C2 6、数据划分技术有利点（Vantage Point）划分选择有利点VP1，以VP1为圆心、R1为半径画圆；数据按位于圆内、外划分之；再从圆内、外分别选择有利点VP21、VP22，分别以R21和R22为圆心画圆。 * d(VP1, x)≤R1 d(VP1, x)R1 VP1,R1 d(VP22, x)≤R22 d(VP22, x)R22 VP22,R22 … … VP21,R21 R22 R1 VP1 R21 VP21 VP22 q r 6、数据划分技术包络球（Bounding Sphere）划分选择中心点C1，以其为圆心、R(C1)为半径画一圆，包含了所有数据；在上述圆内另选中心点C2、C3，再以其为圆心，以R(C2)和R(C3)为半径画圆，将数据划分成两部分；此两圆均在以C1为圆心的圆内，且所有点均在两圆内；因为以C2、C3为圆心的圆是从以C1为圆心的圆衍生出来的，划分可能重叠是其明显缺点。 * C1 C2 C3 C1,R(C1) C2,R(C2) C3,R(C3) 7、大数据NC计算理论 NCi类（Nick’s Class）的电路定义： NCi类均衡电路定义：NCi可定义为可计算的一组函数，可由一簇均衡电路输出的一组布尔函数值表示，其中电路有多项式数目个门（至多两输入），深度为O(login)，i≥1。（电路越深，表示电路的级数越多） RNC（Randomized NC）类概率电路定义：它是由一簇概率电路可计算的一组函数，此电路中除了通常的门以外，还有一个具有随机概率“正确”与“错误”的输出门，电路计算正确的概率至少是1/2。 NC类的层次 NCi类层次可定义如下： NC1 ? NC2 ? … ? NCi， NC类一般定义： NC = ∪k≥1NCk * 7、大数据NC计算理论大数据NC-类计算 NC类与PRAM模型关系：定义EREWk、CREWk和CRCWk分别由使用多项式数目的处理器、运行时间为O(logkn)对数多项式的并行计算模型PRAM-EREW、PRAM-CREW和PRAM-CRCW可计算的一类函数，它们之间关系如下： NCk ? EREWk ? CREWk ? CRCWk ? NCk+1 大数据NC-类计算：采用上述方法，首先将大数据集D划分成多项式数目个子集Di(i=1,2,···,Polynomial Size)；然后对Di在对数多项式时间（Polytime）内施行并行处理。如果上述步骤证明是可行的，则称此类数据计算为NC-类计算。注1：NC类在不同的并行计算模型上是保持不变的。注2：变量x的多项式通式为： f(x) = a1x1+ a2x2+…+ aixi+…+ anxn 对数logx的多项式通式为： f(x) = a1logx+a2log2x+…+ailogix+…+anlognx * 8、大数据计算模式基于MR的流计算 MR是针对静态批处理计算的，启动MR时，计算数据均已到位（例如：保存在DFS中的数据）；而流数据是源源不断流入系统的，显然传统的MR不行，改进的方法包括： Micro-Batch MR：首先把流式数据按到达时间的先后形成一些小的静态数据；然后定期启动MR施行微批处理计算。流水MR：通过作业内或作业间数据传输的流水线，实现Online Hadoop，即实现了Map到Reduce之间数据的Pipeline，使得Map产生部分数据后就可送到Reduce端，以便Reduce可提前或定期计算。动态加入输入：数据未完全到位时，提前向运行中的作业加入新的输入数据，这样