資料分析-Sites@Duke.docVIP

下载本文档

2
0
约1.73万字
约 23页
2017-03-04 发布于天津
举报
版权申诉

資料分析-Sites@Duke.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

資料分析-Sites@Duke

计量分析讲义洪永泰壹、资料的性质和资料分析一、统计分析的两大领域二、资料的性质 (一)依取得方式分资料性质特征推论效度例子观察性资料顺其自然(不改变自然世界) 相关分析民意调查、田野调查实验性资料操纵自然(改变自然世界) 因果分析广告效果测试、新药测试 1.资料的性质会影响推论效度，如果观察性资料之间存有时间先后的关系，经常会被用来当作推论因果关系的依据，但仍有争议。例:社会流动—父母的社经地位vs.子女的社经地位社会学者认为两者之间有因果关系，但统计学者则认为只有相关关系，因为资料并不是实验性资料。例:抽烟与癌症的关系只能说是有相关关系，不能说是有因果关系，除非进行实验。经过一些辩论之后，暂时有一些共识：以观察性资料要推论因果关系至少要具备以下三个条件：（1）变量之间有明确的先后关系，如父母的社会经济地位在前，子女的在后。（2）发生在前的变量对发生在后的变量解释变异量很高。（3）没有其他的解释变量。 2.社会科学的资料大部分都是属于观察性的，较难从事控制性、实验性的研究，因为可能牵涉到伦理的问题。 3.生物医学研究中有运用入选机率调整法（propensity scores adjustment, PSA）将观察性资料应用到因果关系的推论，不过条件是必须有另外一组可靠的实验组资料。这个方法的原理是在将两组资料混合之后，利用模式分析可预测某些观察个案是否包含于实验组的机率值（propensity scores, PS），此机率值以配对、平均或其他方法分为多个分群，每一分群均分别包含了一定数目的实验组与控制组个案，透过比较实验组与控制组在每一分群之权重的调整对实验效果进行推估（Cochran, 1968; Rosenbaum and Rubin, 1983; Rosenbaum and Rubin, 1984; Rosenbaum, 2005）。 (二)依搜集范围分 1.普查资料(母体资料)—所得到的资料是母体参数值(population parameters)，可直接进行描述分析，不需做假设检定，也不需要统计推估，例如投开票所资料、人口普查资料、银行客户交易纪录。 2.抽样资料(样本资料)—所得到的资料是样本统计值(sample statistics)，统计推估有理论上的限制，例如社会调查。 (三)依衡量方式分 1.类别资料(categorical data)—分类、计质、间断性，依资料性质再决定展示工具。 (1)名义尺度(nominal data)—纯分类，无大小和强弱之区分，例如性别、地区。 (2)等第尺度(ordinal data)—有大小和强弱之分，但无确定的「量」，例如名次排序、教育程度、满意度测量、Likert量表等。 2.数字资料(quantitative data)—计量、连续性，内涵的信息和解释力较高。 (1)区间尺度(interval data)—“0”没有定义、无共同的计量基础点，例如温度80度并非是40度的2倍、智商为0不表示没有智商。现实世界中，此类资料并不多。 (2)比率尺度(ratio data)—“0”有明确定义，表示「没有」的意思，可进行数学四则运算，例如分数、身高、体重。由于等第尺度的各个衡量刻度通常都用1,2,3,4,5等数据来表示，许多使用者直接将这些数据当作比率尺度的数字运算，造成误用统计分析的后果。典型的例子如满意度的分析，如果题目选项是1非常不满意，2不满意，3普通，4满意，5非常满意，正确的处理方法应该是视为类别资料，如果是单一变量描述则列出各个选项的百分比；如果是探讨和别的选项的关系则使用交叉列表。比较常见的处理是将选项合并成为正面意见、中间意见、负面意见三大类，或者是转换成另一个变数，例如正面与非正面，或是负面与非负面，都是二分类，这样做比较方便后续与其他变量关系的探讨。满意度调查的问卷设计现在比较流行先问正负面态度再续问强弱度的作法。这样做的好处是将中间意见的反应人数尽可能压缩，通常也可以得到很好的效果。资料分析时直接以类别资料处理，通常只有正面和负面两类加上少数无反应，不会有误用为数字资料的困扰。满意度的资料分析通常是单题处理，每一个题目都可以单独做分析。如果要加总好几个题目时要特别小心，正确的作法应该是计算同一个受访者在m个题目之中有几题回答正面意见，而不是m题去加总12345的答案，这样做会扭曲选项代码的意义。等第资料的另一个常见的典型是Likert 量表。这个量表是加总量表，因发明者而得名。Likert 量表主要是用题组来测量抽象概念，每一题都是一个叙述，请受访者针对这个叙述回答同意的程度，从很低到很高，通常是3到7个刻度。量表不会是单题存在，一定是