- 1、本文档共50页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
四、改变统计思维 统计思维的变化应该以一个永恒不变的主题为前提,那就是通过数据分析揭示事物的真相,这个真相就是事物的生存规律、联系规律和发展规律。也就是说要以数据背后的数据去还原事物的本来面目,达到求真的目的。 涌现性是网络大数据有别于其它数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。 模式的涌现性——社会网络模型的变化 行为的涌现性——有较大相似性的个体之间容易建立社会关系,使得网络在演化过程中自发地形成相互分离的连通块。 智慧的涌现性——对来自大量自发个体的语义进行互相融合和连接而形成通用语义,整个过程随着数据的变化而持续演进。 总结:在大数据环境下,传统的高维表达、结构描述和群体行为分析方法不能准确表示网络大数据在异构性、交互性、时效性、突发性等方面的特点,传统的“假设-模型-检验”的统计方法受到了质疑,而从“数据”到“数据”的第四范式还没有真正建立,急需一个新的理论体系来指导,建立新的分析模型。 (三)大数据分析的突破口 大数据分析涉及三个维度——时间、空间和数据本身,其中时间维度又包含生命周期、数据的时间态、流化与增量、时效等元素,空间维度又包含三元空间、粒度、数据传输与迁移、数据空间等元素,数据维度则体现为多源、异质、异构。 如何从三个维度的整体上对大数据的特性与复杂性进行深入的解析,系统掌握大数据的不确定性特征,继而构建高效的大数据计算模型,成为了大数据分析的突破口,具体表现为以下几个方面: 首先,要系统了解大数据的基础性问题。大数据的基础性问题包括:大数据的内在机理——大数据的演化与传播规律、生命周期,数据科学与社会学、经济学等之间的互动机制,以及大数据的结构与效能的规律性等等。将与计算机科学、统计学、人工智能、数学、社会科学等有关,离不开对相关学科领域知识与研究方法的借鉴。 同时,由于大数据往往以独特的、复杂关联的网络形式出现,因此还必须对大数据背后的网络进行深入的分析,例如能刻画出大数据背后网络共性的网络平均路径长度、度分布、聚集系数、核数、介数等性质和参数,这是开展复杂网络数据分析的基础。 其次,要深入研究大数据的复杂性规律。包括数据的时间规律、空间规律和数据本身规律。再复杂的数据也有规律可循。只有掌握数据的复杂性规律,才能找到大数据分析的切入口,才能理解大数据复杂模式的本质特征和生成机理,进而简化大数据的表征,指导大数据计算模型和算法的设计。 就统计学而言,就是要研究大数据在时空维度上的数据分布、内在结构、动态变化和相关相联的复杂性规律,对表现多元变量分布规律的方法加以改进,关注大数据处理的可扩展性,探索多型态关联数据之间的多维、异构、隐性的关联特征,并基于统计设想和大数据驱动相结合的方式去探索大数据复杂模式的生成机理及其背后的物理意义,最终形成大数据计算与分析的方法论。 再次,要科学度量大数据的复杂性特征。数据分析的前提是研究对象特征的度量与计算,但大数据的复杂性导致了大数据分析计算的复杂程度猛烈激增,单靠传统的数据计算模式基本不行,亟需建立面向大数据计算分析的复杂性度量理论,探索大数据高效计算模型和方法。因此,我们要寻找科学度量复杂性特征的方法。 就统计学而言,需要运用各种统计方法剖析异构关联大数据的复杂性特征的基本因素,以及这些因素之间的内在联系、外在指标和度量方法,进而研究基于先进计算技术的数据复杂性度量模型,寻求近似计算理论和优化算法框架,构建寻找面向计算的数据内核或者数据边界的基本方法。总之,研究有效易行的数据表示方法是开展大数据分析必须解决的技术难题之一。 第四,大胆创新大数据的计算模式。大数据计算模式即数据密集型计算模式。面对大数据,传统的“假设—采样—验证”的模式已经难以有效分析大数据的内在规律、提取其蕴含的真实价值,因为数据的可计算性与可度量性基础已经发生了很大的变化,需要重新定义和构建。为此,需要突破传统的“数据围绕机器转”的计算模式,发展以数据为中心的、推送式的大数据计算理论与模式,设计可行的、有利于深度分析的计算算法。 就统计学而言,需要研究针对大数据的非确定性理论,突破传统的“独立同分布”假设,在探讨分布式、流式算法的基础上,构建大数据分析的计算框架。总之,要基于数据的智能方法,着力研究解决复杂问题的“海量数据+简单逻辑”的方法。 (四)需要达成的几点共识 要把数据处理技术的突破与统计分析方法的创新相结合。 要把碎片化数据处理与整体统计分析相结合。 要把大数据分析与小数据研究相结合。 要把时空维度和数据维度相结合。 要把相关关系的发现与因果规律的研究相结合。 要把探索性分析与验证性分析、抽样分析
您可能关注的文档
- 必备基本公司财务知识.ppt
- 二次函数,及一元二次方程关系.ppt
- 第七课行政行为概述.ppt
- 第二课连锁企业组织结构和岗位配备.ppt
- 第八课建筑业房地产投资风险分析.ppt
- 第十课战略选择评价方法.ppt
- 第九课_第三方物流企业发展战略.ppt
- 对照试验中试验组及对照组区分.ppt
- 工厂标准化管理.ppt
- 仓库管理制度及流程45999.docx
- 2024年度党员干部专题组织生活会个人新四各方面对照检查材料3篇合集.docx
- 2023年民主生活会领导干部个人发言3篇范文.docx
- 第二批主题教育专题组织生活会普通党员个人对照检查材料合集2篇.docx
- 学习以案促改党纪教育专题组织生活会个人对照检查材料两篇.docx
- 党员领导干部2023年民主生活会“六个方面”个人对照检查材料3篇范文.docx
- 党员干部“严守纪律规矩 加强作风建设”组织生活会个人对照检查材料集合篇.docx
- 2024班子防治统计造假专题民主生活会对照检查材料两篇范文.docx
- 2024公司机关党支部教育专题组织生活会个人对照检查材料两篇.docx
- 2023年度专题民主生活会个人对照新6个对照方面检查材料3篇文稿.docx
- 2024第二批主题教育专题组织生活会对照检查材料2篇文本.docx
最近下载
- 2025年安徽水利水电职业技术学院单招职业技能测试题库(各地真题).docx VIP
- 2023年平安人寿保险基本法.docx
- 三年级综合实践教案详细版(新教材).doc VIP
- 环境岩土工程学课件-东南大学-潘华良环境岩土工程学概.pptx VIP
- 人工智能deepseek介绍.pptx VIP
- 2024-2025学年北师大版七年级数学上册同步练:一元一次方程中含参数的问题(6类热点题型)(含答案).pdf VIP
- 新版现西第一册答案.doc
- 六年级下册作文骑鹅旅行记梗概600字精彩4篇.docx
- 2025年合肥通用职业技术学院单招职业技能考试题库及答案1套.docx VIP
- 统编版道法二上 第一单元《我们的节假日》单元整体备课设计.pdf
文档评论(0)