数据分析名词解释.docxVIP

下载本文档

10
0
约2.04千字
约 5页
2022-09-06 发布于湖北
举报
版权申诉

数据分析名词解释.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

重要名词解释数据整理的作用：实。 5、数据缺失是指在数据采集时由于某种原因应该得到而没有得到的数据;现有数据集中某个 [1] 删除元组：个案剔除法 [2] 数据填充：1）单一填充：人工填写、平均值填充、回归值填充、热卡填充 6、显著性水平（significance level）：是指当原假设正确却被拒绝的概率或风险，即；它是由人们根据检验的要求确定的，社会科学研究中通常使用 0.1（10%），0.05（5%），0.01（1%）显著性水平，其统计意义指的是当我们拒绝原假设 _0 而接受备择假设 _1 的时候，我们有 10%、5%、1%的几率犯错误了（反过来说：我们拒绝原假设的时候，我们这一决定有 90%、 95%、99%的概率是对的）。 7、临界值（critical value）：指的是对应相应显著性水平的值；如果检验结果的统计值高于临界值，我们有理由拒绝原假设，如果如果检验结果的统计值低于临界值，我们有理由接受原假设。 9、置信度：指根据样本对总体所作的估计落在一个指定范围内的可靠程度，即（1- ）；内的可能性为 95%,不符合的可能性为 5%。 10、置信区间：在一定置信度时，以抽样结果为中心，包括总体均值在内的可信范围。 11、P 值：当原假设为真时，得到的样本观察结果或更远离原假设值的样本出现的概率。 12、小概率事件：如果对总体的某种假设是真实的，那么不利于或不能支持这一假设的事件 A（小概率事件）在一次试验中几乎不可能发生的；要是在一次试验中事件A 竟然发生了，就有理由怀疑该假设的真实性，拒绝这一假设。描述统计 13、数据特征值度量：（1）集中趋势的度量（2）离散程度的度量（3）偏态和峰态信度和效度 14、概念（concept）：社会领域元素的标签，解释社会领域的某一特定方面。 15、构念（construct）：为了研究目的发明的概念，例：福利、工作满意度、智商特点：抽象、需要测量。 16、指标（indicator）：测量构念的工具，具体表现为变量，分类、顺序、数值变量。 17、信度和效度：信度（reliability）：测量结果的一致性、稳定性和可靠性。效度（validity）：测量准确地反映了需要测量的概念。信度和效度的关系：信度是效度的必要条件。 18、信度的测量方法：（1）重复检验法：对同一群受访者用同一个问卷重复测量两次，再根据两次测量的相关系数评价信度；（2）交错法：两份问卷，不同问题，同一目的；（3）折半法：将一份问卷中的问题随机分为两组，然后考察这两部分的测量结果的相关系数。 19、效度的基本理论模型：假设 Yi=Ui+∈ Ui：第 i 个样本的真值 Yi：第 i 个样本的测量值 ∈：第 i 个样本测量值与真值的差异 20、效度的种类：表面效度(face validity)：测量结果与共识或合理预测吻合的程度；内容效度(content validity): 测量内容的全面性和相符性；标准关联效度 (criterion-related validity): 某测量与外在标准相关的程度，也叫预测效度；建构效度 (construct validity): 也叫构念效度，在某理论体系内，测量体现出来的某种结构与理论之间的对应程度。卡方检验和方差分析 21、卡方检验：是以卡方分布为基础的一种常用假设检验方法，主要用于分类变量。 22、影响因素的分类：在所有的影响因素中根据是否可以人为控制可以分为两类，一类是人为可以控制的因素，称为控制因素或控制变量，如种子品种的选定，施肥量的多少；另 24、观测变量：受控制变量和随机因素影响的变量称为观测变量，如农作物的产量等。 25、单因素方差分析：单因素方差分析测试一个分类型变量的不同水平变动是否造成被关注的数值型变量的显著差异和变动。 29、相关关系的特点：（1）一个变量的取值不能由另一个变量唯一确定；（2）当变量 x 取某个值时，变量 y 的取值对应着一个分布；（3）各观测点分布在直线周围。变差的大小可以通过该实际观测值与其均值之差来表示。 34、误差平方和的分解：残差平方和(SSE—sum of squares of error)：反映除 x 以外的其他因素对 y 取值的影响，也称为不可解释的平方和或剩余平方和。 35、残差（residual）： 36、虚拟自变量：也称哑变量，用数字代码表示的定性自变量。虚拟自变量可有不同的水平： 37、虚拟自变量的性质： 39、定性研究和定量研究： 40、案例分析报告的结构：（1）线性分析式结构 (linear analytic) （2）比较式结构 (comparative) （3）时间顺序结构 (chronological) （4）理论建构式