数据新闻与信息可视化 课件 第5、6章 数据分析之基础统计、 数据分析之文本挖掘.pptx

数据新闻与信息可视化 课件 第5、6章 数据分析之基础统计、 数据分析之文本挖掘.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;;新闻中的数据应用与统计逻辑;;1.2数据分析的基本逻辑:统计推论与假设检验;?;在量化社会科学研究中,研究者通经常“假设验证”方法进行推论。当研究者获得样本后,会对其数据进行分析,得到一些解释数据关系的统计值。我们当然想知道在样本中观察到的关系在真实总体中是否成立。这就涉及到假设验证的方法。

在推论统计中,我们可以通过比较P值与显著性水平α,来对统计显著性进行判断。;追问样本来源

明确分析层级

数据分析的分组与合并(辛普森悖论)

排除干扰变量

避免太过复杂的模型

;数据分析软件的种类与设置;在社会科学领域,最为常见的专业数据分析软件有SPSS、STATA、SAS、R语言和Python等等。近年来,R语言和Python语言为代表的编程语言渐渐成为主流的分析工具。以下是二者的特色对比。;安装好R和RStudio

首先选择一个连接速度良好的CRAN镜像

设置一个工作目录;使用R语言进行数据分析时,我们会用到很多功能包(Packages)。在R语言中,绝大多数的分析和功能实现需要通过函数来实现。R的功能包就是一系列特定函数的集合。换言之,R功能包就是一些实现相关功能的工具箱。

安装ggplot2包install.packages(ggplot2)

启动ggplot2包library(ggplot2)

呼出ggplot2包的介绍help(ggplot2)

呼出geom_bar这个函数的使用说明help(geom_bar);单变量描述;频数与百分比

集中趋势:平均数、中位数、众数

平均数计算

离散趋势:方差与标准差;Excel操作

筛选

排序

利用函数计算:频数与百分比/集中趋势/离散趋势

数据透视表

R语言操作

载入数据:read.csv()

检视数据

筛选数据:subset()

排序:order()

;R语言操作

统计频数与百分比:table(),prop.table()

平均数:mean()

中位数:median()

标准差:sd()

分组数据统计函数:aggregate()

;

ggplot2操作

基本语法:ggplot(data=,aes(x=,y=))+geom_xxx()

柱状图/条形图:geom_bar()

直方图:geom_histogram()

箱线图:geom_boxplot()

;多变量分析;交叉分析可用于分析两个类别型变量之间的关系。在数据分析时,我们经常需要处理类别变量。类别型变量只描述对象的类型分别,类和类之间并不存在算数关系,所以计算类别变量的平均数或方差是没有意义的。因而,分析两个类别变量仍然要着眼其频数。具体而言,我们需要将变量中的类别组合成不同条件,在统计落入各种条件的个案频数,以此来观察两个变量之间的关系。

卡方计算公式:

创建交叉表格:table()函数

计算卡方值:chisq.test()函数

;当分析一个类别变量与一个数值型变量之间的关系时,则需要使用均值比较的策略。t检验只适用于含有两个类别的分类变量(如性别或城市/农村户籍人口)的均值比较,而方差分析适用于含有两个或以上类别的分类变量的均值比较。

R语言操作T检验:t.test()方差分析:anova()

;相关分析(correlation)用以计算两个数值型变量关联强度的统计方法。两个数值型变量都可以在区间内连续波动,因而我们可以计算出一个统计值来衡量两个变量协同变化的程度。这里我们介绍一种最常用的相关分析方法皮尔逊相关系数(Pearson’scorrelationcoefficients)。

R语言函数:cor.test()

;回归是分析若干自变量如何“影响”另一个因变量的统计方法。回归分析还能够明确自变量对因变量的解释力以及自变量间相对影响力的大小。包含很多种类型。这里介绍其最常见的形式:多元线性回归模型(multiplelinearregressionmodel)。

首先,介绍回归的最简单形式——简单线性回归(simplelinearregression)。简单线性回归旨在用一个数值型自变量去预测另一个数值型因变量。将一个变量定为自变量(X),将另一变量定为因变量(Y),自变量X对因变量Y产生影响。回归分析预测因变量yY的公式如下:

最小二乘法(ordinaryleastsquares)是一种常用的回归估计方法,可以找到所产生残差平方和(sumofsquaredresiduals)最小的一条直线作为回归线,并计算出其具体的系数。

R语言函数:lm()

;回归分析结果返回很多信

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档