数据分析方法论简介.doc

  1. 1、本文档共106页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析方法论简介

第一部分 SPSS数据分析基础 第1章 数据分析方法论简介 1.1 三种数据分析方法论 所有的数据分析工作都需要在一定的方法论指导下才能正确进行。随着社会的进步,科学技术的发展,统计学的应用已经渗透到人们工作和生活的各个环节,但不同领域所需要的方法论体系有所差别,这些方法论体系大致可分为如下3种: 严格设计支持下的统计方法论。 半试验研究支持下的统计方法论。 偏智能化、自动化分析的数据挖掘应用方法论。 IBM SPSS Statistics作为全球最为出色的统计软件之一,在功能上完全支持上述3种方法论体系,并满足绝大多数情况下的统计分析需求,Modeler则倾向于数据挖掘方法论的具体实现需求。由于对方法论的理解比对分析方法体系的掌握更为重要,因此本章首先对此进行扼要介绍。用户在遇到实际分析需求时,需要首先判断在各自所属的领域中哪种方法论更为合适,并有针对性地加以学习和研究。 1.1.1 严格设计支持下的统计方法论 严格设计支持下的统计方法论也称为经典统计方法论,它之所以经典,不仅因为其发展较早,而且可使研究者在整个研究体系中尽量掌控一切,具体特征如下: 这类研究都具有非常严密的研究设计,并且严格遵循七大步骤,即试验设计、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布。七大步骤中以试验设计步骤最为关键,它直接影响整个研究的成败。 在此类研究项目中,试验设计中会充分考虑需要控制的影响因素,并采用多种设计方案来对非研究因素的作用加以控制,比如配伍、完全随机抽样、随机分组等。 数据在设计完毕后开始采集,整个试验过程会在尽量理想的情况下进行,从而在试验及数据获取过程中对无关因素的作用加以严格控制。例如在毒理学实验中可以对小白鼠的种系、周龄、生活环境、进食等做出非常严格的设定。 原始数据往往需要从头采集,数据质量完全取决于试验过程是否严格依从设计要求,以及试验设计本身是否合理等因素。当然,这也意味着每个原始数据的成本都非常高。 在分析方法上,最终采用的统计模型应当基于相应的试验设计所定制的分析模型。由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分考虑和控制,因此而在很多情况下往往可以只利用非常简单的统计方法(如t检验、卡方检验等)来得到最终结论。各种复杂高深的统计模型不是没有用武之地,但它们不是至关重要的工具。 此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用的分析方法常常是单因素分析方法,或者针对一些复杂设计使用一般线性模型(方差分析模型)的定制框架。 1.1.2 半试验研究支持下的统计方法论 经典统计分析方法论对整个流程的控制和干预非常严格,但这在许多情况下是无法满足的,因此往往退而求其次,形成了所谓半实验研究支持下的统计分析方法论,其具体特征如下: 研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,例如在数据存在的情况下,数据收集过程就会被省略。总体而言,七大步骤中从数据准备开始的后三步的重要性比经典统计分析方法论高。 研究设计可能无法做到理想化,例如抽样与分组的完全随机性,试验组及对照组干预措施的严格控制都可能无法严格满足。举个最典型的例子,药物研究中理想状况应当设立安慰剂对照组,但是如果是治疗恶性肿瘤的药物,又怎么忍心让肿瘤病人吃安慰剂呢?此时往往设定标准治疗药物对照组,甚至在一些极端情形下不设对照组。虽然这样做在统计设计上并不理想,但更符合医疗道德的要求。 整个数据采集过程难以做到理想化,举一个简单的例子,定点调查(Central Location Test)是市场研究常用的样本采集方式,严格地说,调查地点、调查时间,甚至当天的天气都可能会对样本的代表性以及数据结果产生影响,但它们最终只能凭借访问者的责任心和运气来尽量加以保证,而从设计本身是很难控制的。 部分数据可能先于研究设计而存在,整个研究中需要在这些数据的基础上补充所需的其他部分信息。另一方面,这些数据可能不完全满足分析需求,但这种缺陷却无法得到修正。例如,利用全国各省的经济和人口数据进行省级综合发展程度排序,可以考虑使用因子分析来做,因子分析原则上要求至少有50个案例才能保证结果比较稳健,但全国只有34个省级行政区,难道为了这个统计分析再请有关部门弄出十几个新的省市来吗?这显然是不切实际的。 在分析方法上,由于试验设计难以做到完美,因此各种潜在影响因素的作用可能并不明确,需要以各种可能的影响因素中进行筛选和探索。可能用到的统计方法颇为繁杂,从简单的统计描述到复杂的广义线性模型都可能用到,因此对影响因素的筛选成为很多分析项目的重点任务之一。事实上,很多复杂的多因素分析模型就是在这类研究的实际分析需求刺激下产生并蓬勃发展的。但无论如何,可以使用的方法仍然以经典统计分析方法为主。 此类统计方法论的应用

您可能关注的文档

文档评论(0)

ailuojue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档