陈国良-哈工程-大数据计算理论基础-精简版2014-10.ppt

陈国良-哈工程-大数据计算理论基础-精简版2014-10.ppt

4、结论 变革思维研究大数据 数据的获取:从小数据时代的样本采样到利用相关事物的全样数据。 数据的分析:从追求精确性分析到简单粗略的估计方法。 数据的解释:从分析因果关系到寻找相互关联关系。 数据的处理:从严格理论模型到简单实用方法。 * 本报告部分内容,得益于 樊文飞(Wenfei Fan)教授、 华云生(Benjamin W. Wah)教授、 陈贵海教授。 * 在此一并表示感谢! * * * * * * * * * * * * * * * 大数据计算理论基础 Computing Theory Foundations of Big Data 2014年10月 陈国良,毛睿,陆克中 深圳大学计算机与软件学院 Version 1: 06/2014 ... Version 4: 10/2014 * 摘要: 大数据是当前IT信息技术研究和应用的热点。但是,目前的研究多集中于系统和应用层面,理论基础方面的探讨相对较少。本文以计算复杂性理论为基础,着重研究大数据的可计算性及其可计算原理:主要包括大数据的可解与不可解问题;大数据统一化抽象表示;大数据划分技术;大数据NC类计算理论;大数据计算模式等。最后,根据大数据的4V特性,提出大数据处理应对策略和变革思维方法研究大数据。 * 目 录 计算理论与计算复杂性 可计算性与计算复杂性 计算复杂类 复杂类关系 大数据可计算性 可(能)解与不可(用)解 大数据可(能)解与不可(用)解问题 大数据可计算原理 大数据统一化抽象表示:度量空间 大数据的划分 大数据NC-类计算 大数据计算模式 结论 大数据处理应对策略 变革思维研究大数据 1、计算理论与计算复杂性 可计算性与计算复杂性 可计算性:对于一个问题,如果存在一个机械过程,对给定的输入,能够在有限步内给出结果,则称此问题是可计算的。所谓机械的过程,系指在描述计算的某种设备上(例如图灵机上),实施该计算过程,而给出计算结果。 计算复杂性:用数学方法研究各类问题计算的复杂性质。也可理解为利用计算机求解问题的难易程度。通常用时空复杂性度量。 图灵计算模型:图灵机就是对一条两端可无限延长的纸带上的0和1执行读写操作,一步一步地改变纸带上的0或1值,经过有限步骤最终得到一个满足预先要求的符号串变换。 图灵可计算性:图灵的研究成果认为“可计算性 = 图灵可计算性”,即任何在图灵机上可求解的问题都是可计算的! * 1、计算理论与计算复杂性 计算复杂类 P类问题:在确定图灵机上多项式(Polynomial)时间内可求解的一类问题。 NP类问题:在非确定图灵机上多项式时间内可求解的一类问题(所有NP问题均必须在有限步内是可判定的)。 NPC问题:对于L∈NP的问题,且NP类中的每一个L’均可在多项式时间内归约(转换)到L,L’≤P L,则称L为NPC(NP完全)的(第一个被证明是NPC问题的是布尔满足性问题:Boolean Satisfiability Problem,SAT)。 NPH(难)问题:一个问题H称为NP难的,当且仅当存在着一个NPC问题L,L可在多项式时间内图灵归约(Turing-Reduction)到H。简记之为:L(NPC) ≤T H(NPH)。 * NPH NPC NP P 当P≠NP时,NPH问题 不能在多项式时间内求解。 NP P NPC 当P≠NP时,NPC问题 不能在多项式时间内求解。 1、计算理论与计算复杂性 NC-类问题:在PRAM模型上,使用多项式数目(Polynomial size)的处理器,运行在对数多项式时间(Polylog time)内的一类问题。 NC-算法:在PRAM模型上,一个求解问题的算法使用了多项式数目的处理器,花费了对数多项式时间,则称此算法为NC-算法。 NC-归约:对于问题L1和L2,如果存在一个NC-算法,可将L1的求解转换成L2的求解,则称L1可NC-归约到L2,简记为L1 ≤NC L2。 P完全(PC)问题:对于L∈P,且P中的任意L’均可NC-归约到L,则称L是P完全的。 * P NC PC 当P≠NC时,PC问题 不能在多项式时间内求解。 1、计算理论与计算复杂性 复杂类关系 串行空间与并行时间关系 Sequential-PSPACE = Parallel-PTIME 复杂类包含关系 NC ? P ? NP ? PSPACE ? EXPTIME ? EXPSPACE * NC P NP PSPACE EXPSPACE EXPTIME 2、大数据可计算性 可(能)解(Tractable)与不可(用)解(Intractable) 可(能)解(Tractable: meaning “easily managed” )问题:经典定义是在多项式时间内可以解决的问题。 不可(用)解(In

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档