网站大量收购独家精品文档,联系QQ:2885784924

实用SAS统计分析教程Ch14.pdf

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
报告题目大数据分析方法及其应用一摘要本报告探讨了大数据分析的方法及其在商业领域中的应用,旨在为企业决策提供科学依据二简介大数据是一种处理海量信息的技术,通过收集存储管理和分析大量数据,可以获得有价值的信息,帮助企业实现智能化精细化管理随着信息技术的发展和数据技术的进步,大数据已经成为企业竞争力的重要组成部分三大数据分析方法大数据分析主要分为四个步骤数据采集数据清洗数据分析和决策支持四大数据分析在商业领域的应用1销售预测通过对历史销

阮敬博⼠

⾸都经济贸易⼤学研究⽣院副院⻓

⾸都经济贸易⼤学统计学院教授

©ruanjing@

因⼦分析

•客观世界是复杂多变的,在社会发展的过程中体现出多样性,⼈们的⽣活因此⽽丰富多

彩。那么,⼈们如何简练的从若⼲个⽅⾯去归纳概括出事物发展的历程和特征呢,如何抓

住主要⽭盾,抓住⽭盾的主要⽅⾯?即如何对事物发展过程中呈现出纷繁芜杂的数据进⾏

简单明了的描述?这需要对数据进⾏精简和概括。

•⼈们往往希望能够找出少数具有代表性的变量来对复杂事物进⾏描述,这需要把反映该事

物的很多变量或数据进⾏⾼度概括。本章所阐述的因⼦分析便是如何利⽤复杂多样的数据

来综合描述客观事物特征的分析⽅法和过程。

数据降维

•每个⼈都会遇到有很多变量的数据,如反映全国或各省市经济、社会发展状况的变量数

据、反映⼀个国家总体发展状况的数据等。这些数据的共同特点是变量很多,在如此多的变

量之中,有很多变量之间是相关的,⼈们同时分析很多个变量是⽐较困难的,这就会带来

“维度灾难”的问题。因此,⼈们希望能够找出这些变量的“代表”,来对更多的变量进⾏描

述。

•如在学校中进⾏奖学⾦的评定,需要考虑学⽣各⻔课程的学习成绩、与⼈相处的能⼒、尊重

师⻓的程度、乐于助⼈的程度、担任学⽣⼲部努⼒的程度、参加社会实践活动的积极性等因

素。假设有⼀个学⽣本学期考试的科⽬有10⻔课程,那么其参加奖学⾦评定按照上述的参

考变量,便会有15个变量之多。在实际⼯作中,不会同时考虑这15个变量的数据来进⾏

奖学⾦评定,通常的做法是把相互关联的变量进⾏综合,如把上述15个变量综合为学习成

绩(含10⻔课程)变量、思想品德(含与⼈相处能⼒、尊重师⻓程度、乐于助⼈程度)变

量、⼯作态度(含担任学⽣⼲部努⼒程度、参加实践积极性)变量等3个具有代表性的综合

变量,然后依照这3个综合变量进⾏奖学⾦的评定,从⽽实现了化繁为简的⽬的。

数据降维的基本问题

•把反映⼀个事物特征的多个变量⽤较少且具有代表性的变量来描述,这个过程称之为数据降维。不同的

变量往往是从不同的侧⾯或⽅⾯去描述事物特征的,这些不同的⽅⾯称之为事物的维度,如从身⾼、体

重、⾎型3个⽅⾯反映⼀个⼈的特征,则具有三个维度。当反映事物⽅⾯太多的时候,过多的数据会对所

描述对象造成混乱,很难得到正确结论。因此,应当把相关的维度进⾏总结概括,尽量降低数据维度,简

要地对事物特征进⾏描述

•为了能够简要⽽不遗漏的反映事物特征,数据降维过程中应当解决如下⼏个基本问题:

能否把数据的多个变量⽤较少的综合变量来表示?

较少的综合变量包含有多少原来的信息?

能否利⽤找到的综合变量来对事物进⾏较为全⾯的分析?

•上述第1个问题具体是指在进⾏数据降维之前,应当考虑原始变量数据之间的关联性,即变量之间是否具

有可提取综合变量所存在的必然联系;⽽第2个问题主要考虑所提取出来的综合变量在多⼤程度上代表

了原始数据的信息,这是利⽤综合变量进⾏统计分析,进⽽得到正确结论的理论基础;第3个问题主要

阐述了数据降维应当在统计分析过程中发挥的重要作⽤,并且在降维得到综合变量的基础之上进⾏进⼀步

的统计分析活动。

•解决好这些基本问题之后,就可以⽤简化的数据对事物进⾏描述或判定,从⽽得出统计分析的结论。

数据降维的基本原理

•数据降维过程可以从最简单的⼆维数据降为⼀维数据开始。先假设只有⼆维,即只有两个变量,它们可由⼆维坐

标轴上的横坐标(x)和纵坐标(y)来表示,因此每个观测值都有相应于这两个坐标轴的坐标值。在正态分布的

假定下,这些数据在⼆维坐标轴上形成⼀个椭圆的分布形状,如图14-1所示。

•众所周知,椭圆有⼀个⻓轴和⼀个短轴,且互相垂直。在短轴⽅向上,数据变化很少;⽽⻓轴⽅向,数据变化的

范围较⼤。在极端的情况,短轴如果退化成⼀点,则只有在⻓轴的⽅向才能够解释这些点的变化了。因此,⻓轴

就是要找的主要综合变量。⾄此,由⼆维到⼀维的降维过程就完成了。

文档评论(0)

医药前沿 + 关注
实名认证
内容提供者

专业医药相关文档服务

1亿VIP精品文档

相关文档