- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;;新闻中的数据应用与统计逻辑;;1.2数据分析的基本逻辑:统计推论与假设检验;?;在量化社会科学研究中,研究者通经常“假设验证”方法进行推论。当研究者获得样本后,会对其数据进行分析,得到一些解释数据关系的统计值。我们当然想知道在样本中观察到的关系在真实总体中是否成立。这就涉及到假设验证的方法。
在推论统计中,我们可以通过比较P值与显著性水平α,来对统计显著性进行判断。;追问样本来源
明确分析层级
数据分析的分组与合并(辛普森悖论)
排除干扰变量
避免太过复杂的模型
;数据分析软件的种类与设置;在社会科学领域,最为常见的专业数据分析软件有SPSS、STATA、SAS、R语言和Python等等。近年来,R语言和Python语言为代表的编程语言渐渐成为主流的分析工具。以下是二者的特色对比。;安装好R和RStudio
首先选择一个连接速度良好的CRAN镜像
设置一个工作目录;使用R语言进行数据分析时,我们会用到很多功能包(Packages)。在R语言中,绝大多数的分析和功能实现需要通过函数来实现。R的功能包就是一系列特定函数的集合。换言之,R功能包就是一些实现相关功能的工具箱。
安装ggplot2包install.packages(ggplot2)
启动ggplot2包library(ggplot2)
呼出ggplot2包的介绍help(ggplot2)
呼出geom_bar这个函数的使用说明help(geom_bar);单变量描述;频数与百分比
集中趋势:平均数、中位数、众数
平均数计算
离散趋势:方差与标准差;Excel操作
筛选
排序
利用函数计算:频数与百分比/集中趋势/离散趋势
数据透视表
R语言操作
载入数据:read.csv()
检视数据
筛选数据:subset()
排序:order()
;R语言操作
统计频数与百分比:table(),prop.table()
平均数:mean()
中位数:median()
标准差:sd()
分组数据统计函数:aggregate()
;
ggplot2操作
基本语法:ggplot(data=,aes(x=,y=))+geom_xxx()
柱状图/条形图:geom_bar()
直方图:geom_histogram()
箱线图:geom_boxplot()
;多变量分析;交叉分析可用于分析两个类别型变量之间的关系。在数据分析时,我们经常需要处理类别变量。类别型变量只描述对象的类型分别,类和类之间并不存在算数关系,所以计算类别变量的平均数或方差是没有意义的。因而,分析两个类别变量仍然要着眼其频数。具体而言,我们需要将变量中的类别组合成不同条件,在统计落入各种条件的个案频数,以此来观察两个变量之间的关系。
卡方计算公式:
创建交叉表格:table()函数
计算卡方值:chisq.test()函数
;当分析一个类别变量与一个数值型变量之间的关系时,则需要使用均值比较的策略。t检验只适用于含有两个类别的分类变量(如性别或城市/农村户籍人口)的均值比较,而方差分析适用于含有两个或以上类别的分类变量的均值比较。
R语言操作T检验:t.test()方差分析:anova()
;相关分析(correlation)用以计算两个数值型变量关联强度的统计方法。两个数值型变量都可以在区间内连续波动,因而我们可以计算出一个统计值来衡量两个变量协同变化的程度。这里我们介绍一种最常用的相关分析方法皮尔逊相关系数(Pearson’scorrelationcoefficients)。
R语言函数:cor.test()
;回归是分析若干自变量如何“影响”另一个因变量的统计方法。回归分析还能够明确自变量对因变量的解释力以及自变量间相对影响力的大小。包含很多种类型。这里介绍其最常见的形式:多元线性回归模型(multiplelinearregressionmodel)。
首先,介绍回归的最简单形式——简单线性回归(simplelinearregression)。简单线性回归旨在用一个数值型自变量去预测另一个数值型因变量。将一个变量定为自变量(X),将另一变量定为因变量(Y),自变量X对因变量Y产生影响。回归分析预测因变量yY的公式如下:
最小二乘法(ordinaryleastsquares)是一种常用的回归估计方法,可以找到所产生残差平方和(sumofsquaredresiduals)最小的一条直线作为回归线,并计算出其具体的系数。
R语言函数:lm()
;回归分析结果返回很多信
您可能关注的文档
- 数据新闻与信息可视化 课件 第1、2章 数据新闻与可视化概论、 数据来源与生成逻辑.pptx
- 数据新闻与信息可视化 课件 第3、4章 网络数据获取、 数据清理.pptx
- 数据新闻与信息可视化 课件 第7、8章 可视化的概念、原则与流程; 可视化实战.pptx
- 数据新闻与信息可视化 课件全套 第1--8章 数据新闻与可视化概论、 数据来源与生成逻辑--- 可视化实战.pptx
- 财税基础 课件 高翠莲 项目4--7 电商企业财税业务处理、电商企业账务处理程序、电商企业财务报表编制分析、电商企业税务报表编制与分析.pptx
- 《应用文写作》 课件 第1、2章: 事务文书写作、礼仪文书写作.pptx
- 《应用文写作》 课件 第3、4章: 就业文书书写、 会务文书写作.pptx
- 《应用文写作》 课件 第5、6章: 经济文书写作、 管理文书写作.pptx
- 《应用文写作》 课件 第7、8章: 工科文书写作、党务文书写作 .pptx
- 《应用文写作》 课件 第8、9章: 党务文书写作、 新媒体文书写作.pptx
- 2024年田东县事业单位联考招聘考试历年真题推荐.docx
- 2024年略阳县事业单位联考招聘考试历年真题汇编.docx
- 2024年略阳县事业单位联考招聘考试历年真题汇编.docx
- 2024年田东县事业单位联考招聘考试历年真题新版.docx
- 2024年略阳县事业单位联考招聘考试历年真题汇编.docx
- 2024年电白县事业单位联考招聘考试真题汇编完美版.docx
- 2024年申扎县事业单位联考招聘考试真题汇编带答案.docx
- 2024年申扎县事业单位联考招聘考试真题汇编带答案.docx
- 2024年田林县事业单位联考招聘考试真题汇编汇编.docx
- 2024年田林县事业单位联考招聘考试真题汇编附答案.docx
最近下载
- 农业产业园项目农产品质量安全监管体系建设与评估报告.docx VIP
- 2024版矿石资源勘探与开采合作协议.docx VIP
- 统编版九年级道德与法治下册全册教学设计教案.pdf
- 新目标大学英语(第二版)视听说教程 3 参考答案.pdf VIP
- 某住宅楼给水排水设计毕业论文(设计)计算书.doc VIP
- 婴幼儿发展心理学 同伴关系 同伴关系.pptx VIP
- 人教版九年级(初三)道德与法治下册全册教案.pdf VIP
- 会计学原理课程实验(第六版)张志康习题答案解析.pdf
- 20S517- 排水管道出水口.pdf VIP
- Bose博士SoundTouch 300 Soundbar 扬声器说明书.pdf
原创力文档


文档评论(0)