- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从复杂性角度看大数据面临的挑战.doc
从复杂性角度看大数据面临的挑战
大数据技术和人类探索复杂性的努力有密切关系。20 世纪70 年代, 新三论的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。但30年来并未取得预期的效果, 其原因之一可能是当时还没有出现解决复杂性的技术。
而随着集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大,可能使复杂性科学得以落地。
复杂性科学是大数据技术的科学基础,大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。
但目前大数据技术还不成熟, 面对海量、异构、动态变化的数据, 传统的数据处理和分析技术难以应对, 现有的数据处理系统实现大数据应用的效率较低, 成本和能耗较大, 而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。
数据复杂性引起的挑战
图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难, 其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式, 数据本身具有很高的复杂性。
目前,人们对大数据背后的物理意义缺乏理解, 对大数据的复杂性和计算复杂性的内在联系也缺乏深刻的理解, 领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标, 需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接,大数据的复杂性也体现在数据之间的相互关联。理解数据之间关联的奥秘可能就是揭示微观到宏观“涌现” 规律的关键突破口。
大数据复杂性规律的研究有助于理解其复杂模式的本质特征和生成机理, 从而简化大数据的表征, 获取更好的知识抽象。
为此,需要建立多模态关联关系下的数据分布理论和模型, 理清数据复杂度和计算复杂度之间的内在联系, 奠定大数据计算的理论基础。
计算复杂性引起的挑战
大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算, 在分析大数据时, 往往需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大, 内在关联密切而复杂, 价值密度分布极不均衡, 这些特征对建立大数据计算范式提出了挑战。对于PB 级的数据, 即使只有线性复杂性的计算也难以实现, 而且, 由于数据分布的稀疏性, 可能做了许多无效计算。
传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系。所谓具有多项式复杂性的算法是指当问题的规模增大时, 计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是, 针对给定规模的问题, 如何“算得快”。大数据应用本质上是在给定的时间、空间限制下, 如何“算得多”。从“算得快”到“算得多”, 考虑计算复杂性的思维逻辑有很大的转变。所谓“算得多” 并不是计算的数据量越大越好, 需要探索从足够多的数据,到刚刚好的数据, 再到有价值的数据的按需约简方法。
基于大数据求解困难问题的一条思路是放弃通用解, 针对特殊的限制条件求具体问题的解。
人类的认知问题一般都是NP 难问题,但只要数据充分多, 在限制条件下可以找到十分满意的解, 近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量, 需要研究基于自举和采样的局部计算和近似方法, 提出不依赖于全量数据的新型算法理论, 研究适应大数据的非确定性算法等理论。
系统复杂性引起的挑战
大数据对计算机系统的运行效率和能耗提出了苛刻要求, 大数据处理系统的效能评价与优化问题具有挑战性, 不但要求理清大数据的计算复杂性与系统效率、能耗间的关系, 还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。
针对大数据的价值稀疏性和访问弱局部性的特点, 我们需要研究大数据的分布式存储和处理架构。
大数据应用涉及几乎所有的领域, 大数据的优势是能在长期应用中发现往往被忽视的稀疏而珍贵的价值, 但一种优化的计算机系统结构很难适应各种不同的需求, 碎片化的应用大大增加了信息系统的复杂性。
像昆虫种类一样多(500多万种)的大数据和物联网应用如何形成手机一样的巨大市场, 这就是所谓“昆虫纲悖论”。为了化解计算机系统的复杂性, 需要研究异构计算系统和可塑计算技术。
大数据应用中, 计算机系统的负载量发生了本质性变化, 计算机系统结构需要革命性的重构。
信息系统需要从数据围着处理器转改变为处理能力围着数据转, 关注的重点不是数据加工, 而是数据的搬运; 系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力, 并发执行的规模要提高到10 亿级以上。构建以数据为
您可能关注的文档
最近下载
- 2024年一级建造师考试【市政】思维导图.pdf
- GB50751-2024医用气体工程技术规范.pptx VIP
- 顶尖录音利器SONY PCM-D50中文说明书.pdf
- 包茎包皮过长.pptx VIP
- 中医方法护理课件1.pptx VIP
- 鼻窦炎的中西医诊疗护理课件.pptx VIP
- 高中英语选择性必修第二册:UNIT 5-7-_Project-教学课件.pptx
- Unit 5 First Aid Project 教学设计 2024--2025学年高二英语人教版(2019)选择性必修第二册.docx
- 教科版六年级下册科学全册知识点总结与归纳(2022年新改版).doc
- 清工部《工程做法则例》_图文.pdf
文档评论(0)