数据分析名词解释..docxVIP

下载本文档

48
0
约3.58千字
约 6页
2017-01-13 发布于重庆
举报
版权申诉

数据分析名词解释..docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析名词解释.

重要名词解释数据整理1、数据（Data）是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像，也可以是计算机代码。2、数据的类型：按收集方法分、按被描述的现象和时间分、按计量尺度分、按获取途径分。3、抽样误差和非抽样误差4、数据整理：数据整理是根据研究目的，运用科学的方法，对调查数据（特别是二手数据）进行审核、分类或分组、汇总，使之系统化和条理化，并以集中、简明的方式反映调查对象总体情况的工作过程。数据整理的作用：是对调查资料的全面检查。查缺补漏，去伪存真，去粗取精，保证数据的真实。是进一步分析研究数据的基础。对数据的分析必须借助完备的系统的资料，因此它是研究阶段的第一步。是保存数据的客观要求。只有进行整理之后，才能使原始数据具有长期保存的价值。5、数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据;现有数据集中某个或某些属性的值是不完全的。缺失数据的处理：删除元组：个案剔除法数据填充：1）单一填充：人工填写、平均值填充、回归值填充、热卡填充2）多重填充：多重插补法不处理假设检验6、显著性水平（significance level）：是指当原假设正确却被拒绝的概率或风险，即?；它是由人们根据检验的要求确定的，社会科学研究中通常使用0.1（10%），0.05（5%），0.01（1%）显著性水平，其统计意义指的是当我们拒绝原假设??_0而接受备择假设??_1的时候，我们有10%、5%、1%的几率犯错误了（反过来说：我们拒绝原假设的时候，我们这一决定有90%、95%、99%的概率是对的）。7、临界值（critical value）：指的是对应相应显著性水平的值；如果检验结果的统计值高于临界值，我们有理由拒绝原假设，如果如果检验结果的统计值低于临界值，我们有理由接受原假设。8、依据显著性水平大小把概率划分为二个区间，小于给定标准的概率区间称为拒绝区间，大于这个标准则为接受区间。事件属于接受区间，原假设成立而无显著性差异；事件属于拒绝区间，拒绝原假设而认为有显著性差异。9、置信度：指根据样本对总体所作的估计落在一个指定范围内的可靠程度，即（1- ? ）；通常用一个百分数表示,如95%的置信度是指根据样本对总体所作的估计落在一个指定范围内的可能性为95%,不符合的可能性为5%。10、置信区间：在一定置信度时，以抽样结果为中心，包括总体均值在内的可信范围。11、P 值：当原假设为真时，得到的样本观察结果或更远离原假设值的样本出现的概率。12、小概率事件：如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中事件A竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。描述统计13、数据特征值度量：（1）集中趋势的度量（2）离散程度的度量（3）偏态和峰态信度和效度14、概念（concept）：社会领域元素的标签，解释社会领域的某一特定方面。15、构念（construct）：为了研究目的发明的概念，例：福利、工作满意度、智商特点：抽象、需要测量。16、指标（indicator）：测量构念的工具，具体表现为变量，分类、顺序、数值变量。17、信度和效度：信度（reliability）：测量结果的一致性、稳定性和可靠性。效度（validity）：测量准确地反映了需要测量的概念。信度和效度的关系：信度是效度的必要条件。18、信度的测量方法：（1）重复检验法：对同一群受访者用同一个问卷重复测量两次，再根据两次测量的相关系数评价信度；（2）交错法：两份问卷，不同问题，同一目的；（3）折半法：将一份问卷中的问题随机分为两组，然后考察这两部分的测量结果的相关系数。19、效度的基本理论模型：假设Yi=Ui+∈Ui：第i个样本的真值Yi：第i个样本的测量值∈：第i个样本测量值与真值的差异20、效度的种类：表面效度(face validity)：测量结果与共识或合理预测吻合的程度；内容效度(content validity): 测量内容的全面性和相符性；标准关联效度 (criterion-related validity): 某测量与外在标准相关的程度，也叫预测效度；建构效度 (construct validity): 也叫构念效度，在某理论体系内，测量体现出来的某种结构与理论之间的对应程度。卡方检验和方差分析21、卡方检验：是以卡方分布为基础的一种常用假设检验方法，主要用于分类变量。22、影响因素的分类：在所有的影响因素中根据是否可以人为控制可以分为两类，一类是人为可以控制的因素，称为控制因素或控制变量，如种子品种的选定，施肥量的多少；另一类因素是认为很难控制的因素，称为随机因素，如气候和地域等影响因素。在很多情况下随机因素指的是实验过程中的抽样误差。23、控制变量的