4、结论 变革思维研究大数据 数据的获取:从小数据时代的样本采样到利用相关事物的全样数据。 数据的分析:从追求精确性分析到简单粗略的估计方法。 数据的解释:从分析因果关系到寻找相互关联关系。 数据的处理:从严格理论模型到简单实用方法。 * 本报告部分内容,得益于 樊文飞(Wenfei Fan)教授、 华云生(Benjamin W. Wah)教授、 陈贵海教授。 * 在此一并表示感谢! * * * * * * * * * * * * * * * 大数据计算理论基础 Computing Theory Foundations of Big Data 2014年10月 陈国良,毛睿,陆克中 深圳大学计算机与软件学院 Version 1: 06/2014 ... Version 4: 10/2014 * 摘要: 大数据是当前IT信息技术研究和应用的热点。但是,目前的研究多集中于系统和应用层面,理论基础方面的探讨相对较少。本文以计算复杂性理论为基础,着重研究大数据的可计算性及其可计算原理:主要包括大数据的可解与不可解问题;大数据统一化抽象表示;大数据划分技术;大数据NC类计算理论;大数据计算模式等。最后,根据大数据的4V特性,提出大数据处理应对策略和变革思维方法研究大数据。 * 目 录 计算理论与计算复杂性 可计算性与计算复杂性 计算复杂类 复杂类关系 大数据可计算性 可(能)解与不可(用)解 大数据可(能)解与不可(用)解问题 大数据可计算原理 大数据统一化抽象表示:度量空间 大数据的划分 大数据NC-类计算 大数据计算模式 结论 大数据处理应对策略 变革思维研究大数据 1、计算理论与计算复杂性 可计算性与计算复杂性 可计算性:对于一个问题,如果存在一个机械过程,对给定的输入,能够在有限步内给出结果,则称此问题是可计算的。所谓机械的过程,系指在描述计算的某种设备上(例如图灵机上),实施该计算过程,而给出计算结果。 计算复杂性:用数学方法研究各类问题计算的复杂性质。也可理解为利用计算机求解问题的难易程度。通常用时空复杂性度量。 图灵计算模型:图灵机就是对一条两端可无限延长的纸带上的0和1执行读写操作,一步一步地改变纸带上的0或1值,经过有限步骤最终得到一个满足预先要求的符号串变换。 图灵可计算性:图灵的研究成果认为“可计算性 = 图灵可计算性”,即任何在图灵机上可求解的问题都是可计算的! * 1、计算理论与计算复杂性 计算复杂类 P类问题:在确定图灵机上多项式(Polynomial)时间内可求解的一类问题。 NP类问题:在非确定图灵机上多项式时间内可求解的一类问题(所有NP问题均必须在有限步内是可判定的)。 NPC问题:对于L∈NP的问题,且NP类中的每一个L’均可在多项式时间内归约(转换)到L,L’≤P L,则称L为NPC(NP完全)的(第一个被证明是NPC问题的是布尔满足性问题:Boolean Satisfiability Problem,SAT)。 NPH(难)问题:一个问题H称为NP难的,当且仅当存在着一个NPC问题L,L可在多项式时间内图灵归约(Turing-Reduction)到H。简记之为:L(NPC) ≤T H(NPH)。 * NPH NPC NP P 当P≠NP时,NPH问题 不能在多项式时间内求解。 NP P NPC 当P≠NP时,NPC问题 不能在多项式时间内求解。 1、计算理论与计算复杂性 NC-类问题:在PRAM模型上,使用多项式数目(Polynomial size)的处理器,运行在对数多项式时间(Polylog time)内的一类问题。 NC-算法:在PRAM模型上,一个求解问题的算法使用了多项式数目的处理器,花费了对数多项式时间,则称此算法为NC-算法。 NC-归约:对于问题L1和L2,如果存在一个NC-算法,可将L1的求解转换成L2的求解,则称L1可NC-归约到L2,简记为L1 ≤NC L2。 P完全(PC)问题:对于L∈P,且P中的任意L’均可NC-归约到L,则称L是P完全的。 * P NC PC 当P≠NC时,PC问题 不能在多项式时间内求解。 1、计算理论与计算复杂性 复杂类关系 串行空间与并行时间关系Sequential-PSPACE = Parallel-PTIME 复杂类包含关系NC ? P ? NP ? PSPACE ? EXPTIME ? EXPSPACE * NC P NP PSPACE EXPSPACE EXPTIME 2、大数据可计算性 可(能)解(Tractable)与不可(用)解(Intractable) 可(能)解(Tractable: meaning “easily managed” )问题:经典定义是在多项式时间内可以解决的问题。 不可(用)解(In
您可能关注的文档
- “一师一优课一课一名师”活动培训教程.ppt
- 《1000以内数的大小比较》5课时.ppt
- 《电子控制技术》--常见的传感器.ppt
- 《基本初等函数的导数公式及导数的运算法.ppt
- 《检验仪器维修与使用》第七章电泳分析.ppt
- 《任意角》问题式引导.ppt
- 《商鞅变法》16级文科上课.ppt
- 《要是你在野外迷了路》mp4.ppt
- 《永远的白衣战士1》教学.ppt
- 0-6岁儿童健康管理服务规范第三版.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 中医护理技术在骨科中的应用.ppt VIP
- 非煤矿山节后复工安全培训.pptx VIP
- 吉林省松原市长岭县2025~2026学年度下学期第一次月考试卷 八年英语(含答题卡、答案).docx VIP
- 2019新人教版高中英语必修二Unit4词汇表.pdf VIP
- 2025年上半年中国铁路西安局集团有限公司校招笔试题带答案.docx VIP
- 教育学原理-第三章-教育与人的发展【实用参考】.ppt VIP
- 婴幼儿早期教育课程标准.docx VIP
- 景成道人培训课件.ppt VIP
- 2022年高中军训心得体会(集合15篇).docx VIP
- (统编版2024)语文七年级下册 第三单元《课外古诗词诵读》课件(新教材).pptx
原创力文档

文档评论(0)