数据与计算科学基础_第8章 数据分析与可视化.pptx

数据与计算科学基础_第8章 数据分析与可视化.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据与计算科学基础;第8章 数据分析与可视化;;;8.2 基础统计分析;8.2 基础统计分析;8.2 基础统计分析;8.2 基础统计分析;8.2 基础统计分析;NORM.DIST(x, mean, standard_dev, cumulative),返回指定平均值和标准偏差。;8.2 基础统计分析;;8.2 基础统计分析;;8.2 基础统计分析;8.2 基础统计分析;;8.2 基础统计分析;;8.2 基础统计分析;8.2 基础统计分析;8.2 基础统计分析;8.2 基础统计分析;图8-11 人均可支配收入和消费支出数据;;8.2 基础统计分析;8.3.1 数据挖掘概述 8.3.2 Excel数据挖掘模块 8.3.3 关联分析 8.3.4 聚类分析 8.3.5 时间序列分析 ;数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但是又潜在有用的信息和知识的过程。数据挖掘在大数据处理分析中具有广泛的应用,在应用中按实际作用可分为分类、估值、预测、相关性分析、时间序列等。数据挖掘方法主要有机器学习方法、统计方法、神经网络方法等。 数据挖掘通常包括以下8个步骤。 (1)信息收集 (2)数据集成 (3)数据规约 (4)数据清理 (5)数据变换 (6)数据挖掘过程 (7)模式评估 (8)知识表示 ;Excel 是当前使用最普遍的电子表格软件之一,利用它能容易地完成图表的制作、统计、分析及数据处理,不但功能强大,而且简单易用。为了能有效提升Excel用户数据处理和分析的能力,微软公司提供了一个免费的数据挖掘模块。通过调用该模块,Excel配合SQL Server,用户可以方便、快速地完成以往只有使用专业数据挖掘软件才能完成的任务。 在Excel中进行数据挖掘之前,需要安装数据挖掘外接程序,并且要有SQL Server的支持。Excel采用插件的形式来实现数据挖掘功能,其数据挖掘插件主要包括Excel表分析工具和Excel数据挖掘客户端。 ;Excel表分析工具为不具备数据挖掘和统计学知识背景的数据挖掘初学者提供数据分析和预测功能,在其简单、易用的操作界面下,屏蔽了复杂的技术。Excel表分析工具有8个功能模块。 (1)分析关键影响因素 (2)检测类别 (3)从示例填充 (4)预测 (5)突出显示异常值 (6)应用场景分析 (7)预测计算器 (8)购物篮分析 ;Excel数据??掘客户端是为具有专业背景的数据分析师设计的数据挖掘工具,当其被安装后,Excel菜单栏会多出“数据挖掘”项。 Excel数据挖掘客户端的主要功能模块如下。 ① 数据准备。在数据挖掘前,完成对数据的浏览、清除数据或数据的随机抽样等。 ② 数据建模。在开始进行数据挖掘前,可以先建立数据挖掘模型和预测分析等。其中包括的方法有分类、估计、聚类分析、关联、预测等。 ③ 准确性和验证。通过图表来查看及验证挖掘模型。其中包括准确性图表、分类矩阵、利润图及交叉验证。 ④ 模型用法。可以对已构建的挖掘模型进行条件式查询。其中的功能选项有浏览、文档模型及查询。 ⑤ 管理。可以对已构建的挖掘模型进行管理。 ⑥ 连接。设置与SQL Server的Analysis Services的连接。 ;1.关联分析概述 关联分析(correlation analysis)是一种简单而实用的数据分析方法,是描述性而非预测性的方法,用于发现大量数据中隐藏的关联性或者相关性,分析结果用于指导对行为的选择。例如,从购物数据中发现某些商品可能被一起购买后,就可将这些商品捆绑销售。如数学成绩好的学生可能编程成绩也好,也许这些学生可以选择与计算机相关的专业。 (1)关联分析的基本概念 关联规则(association rules)反映一个事物与其他事物之间的相互依存性和关联性,如果两个或多个事物之间存在一定的关联关系,那么就能通过其他事物预测其中一个事物。关联规则是数据挖掘的一项重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。 在关联规则数据挖掘中,最经典的案例之一就是沃尔玛的啤酒和尿布的故事。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购物习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:与尿布一起购买最多的商品竟是啤酒。经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档