2018年大数据分析_陈明.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2018年大数据分析_陈明.doc

大数据分析_陈明   第 5 期   122   2014 年 3 月 10 日   计算机教育   Computer Education   中图分类号:   G642   前瞻技术   专栏作家简介:陈明,男,中国石油大学计算机科学与技术系教授,博士生导师,特聘教授,研究方向为分布式并行计算、计算智能、软件工程、大数据技术等,chenming@cup.edu.cn。   文章编号:1672-5913(2014)05-0122-05中图分类号:G642   大数据分析   陈 明   (中国石油大学 计算机科学与技术系,北京 102249)   摘 要:大数据分析是大数据技术的主要应用之一。文章介绍大数据分析的基本方法、类型、步骤、内容和预测分析等。   关键词:数据分析;预测分析;大数据分析   1 概 述   数据分析是指收集、处理数据并获取信息的过程。具体地说,数据分析是建立审计分析模型,对数据进行核对、检查、复算、判断等操作,将被审计数据的现实状态与理想状态进行比较,从而发现审计线索,搜集审计证据的过程。通过数据分析,我们可以将隐没在杂乱无章的数据中的信息集中、萃取和提炼,进而找出所研究对象的内在规律。   数据分析有极广泛的应用范围。在产品的整个生命周期内,数据分析过程是质量管理体系的支持过程,包括从产品的市场调研到售后服务以及最终处置都需要适当运用数据分析,以提升有效性。如一个企业领导人通过市场调查,分析所得数据判定市场动向,从而制订合适的生产及销售计划。   算之外,还包含下述几种常用方法。   2.1 统 计   统计有合计、总计之意,指对某一现象的有关数据进行搜集、整理、计算、分析、解释、表述等。在实际应用中,统计含义一般包括统计工作、统计资料和统计科学。   (1)统计工作。统计工作指利用科学方法对相关数据进行搜集、整理和分析并提供关于社会经济现象数量资料的工作的总称,是统计的基础。统计工作也称统计实践或统计活动。现实生活中,统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括统计设计、统计调查、统计整理和统计分析4个环节。   (2)统计资料。统计资料又称为统计信息,是反映一定社会经济现象总体或自然现象总体的特征或规律的数字资料、文字资料、图表资料及其他相关资料的总称。统计资料是通过统计工作获得反映社会经济现象的数据资料的总称,反映   2 数据分析的基本方法   数据分析的基本方法除了包括较简单数学运   基金项目:北京市教育委员会共建项目(京教函   [2008]411号);北京市高教学会“十二五”高等教育研究规划课   题(京高学会[2011]28号)。   第 5 期   前瞻技术   123   在统计表、统计图、统计手册、统计年鉴、统计资料汇编、统计分析报告和其他有关统计信息的载体中。统计资料也包括调查取得的原始资料和经过整理、加工的次级资料。   (3)统计学。统计学是统计工作经验的总结和理论概括,是系统化的知识体系,主要研究搜集、整理和分析统计资料的理论与方法。统计学利用概率论建立数学模型,收集所观察系统的数据,进行量化分析与总结,进而推断和预测,为相关决策提供依据和参考。   统计分析的流程是确定分析目标,收集、整理和分析数据,提出分析报告。   峰值功率就是最高能支持的功率。电源的峰值功率指电源短时间内能达到的最大功率,通常仅能维持30s 左右的时间。一般情况下电源峰值功率可以超过最大输出功率50%左右,由于硬盘在启动状态下所需要的能量远远大于其正常工作时的数值,因此系统经常利用这一缓冲为硬盘提供启动所需的电流,启动到全速后就会恢复到正常水平。峰值功率没有什么实际意义,因为电源一般不能在峰值输出时稳定工作。   2.5 列表与作图   (1)列表。将实验数据按一定规律用列表方式表达出来是记录和处理实验数据最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的物理关系;此外还要求在表栏中注明物理量名称、符号、数量级和单位等;根据需要还可以列出除原始数据以外的计算栏目和统计栏目等;最后还要求写明表格名称,主要测量仪器的型号、量程和准确度等级,有关环境条件参数(如温度、湿度)等。   ( 2)作图。作图可以显式地表达物理量间的变化关系。从图线上还可以简便求出实验需要的某些结果,如直线的斜率和截距值等,读出没有进行观测的对应点(内插法),或在一定条件下从图线的延伸部分读到测量范围以外的对应点(外推法)。此外,还可以把某些复杂的函数关系通过一定的变换用直线图表示出来。   2.2 快速傅里叶变换   1965年,Cooley 和Tukey 提出了计算离散傅里叶变换(DFT )的快速算法——快速傅氏变换(FFT )。FFT 根据DFT 的奇、偶、虚、实等特性

文档评论(0)

tangdequan1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档