- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
R语言在数据可视化中应用
R语言在数据可视化中应用
[摘要]介绍了R语言在数据可视化方面的应用,并结合R语言自带的几个数据集,通过R语言的ggplot绘图函数,实现了通过R语言绘制散点图、线图、直方图、箱线图以及条形图的实例。
[关键词]R语言;数据可视化;gg3310t;统计分析
中图分类号:TP391.41 文献标识码:A 文章编号:1009-914X(2015)05-0127-01
1引言
近年来,随着社会的不断进步以及信息技术的不断应用,人类在生产、生活以及创造的过程中产生以及积累了大量的数据,如何有效的处理和挖掘这些数据已经成为时下的技术热点,R语言作为一种简单易学、功能强大的开源统计分析软件,迅速被业界广泛使用;同时,从各类数据库中取出来的数据是越来越大量且繁杂的,如果不借助图,比较难以展示出来,所以,数据的可视化就成了一件很重要的事;R语言自带了强大的绘图系统,为数据的图形化展示提供了便捷的工具,从而也使得R成为了一款优秀的数据可视化工具。
2数据可视化
如何分析所获得的大量、复杂和多维的数据呢?研究表明,人类获得的关于外在世界的信息80%以上是通过视觉通道获得的,因此答案就是要提供像人眼一样的直觉的、交互的和反应灵敏的可视化环境,可见,发展数据可视化技术具有重要的意义。
可视化,也称科学计算可视化(Visualization in Scientific Computing),其定义为:“可视化是一种计算方法,它将符号或数据转换为直观的几何图形,便于研究人员观察其模拟和计算过程。可视化包括了图像综合,这也就是说,可视化是用来解释输入到计算机中的图像数据,并从复杂的多维数据中生成图像的一种工具。”数据可视化本身是一门复杂的学科,包含了很多方面;现代的数据可视化(Data visualization)技术指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。随着科学技术的发展,数据可视化概念也在不断地扩展,它不仅包括科学计算数据的可视化,而且包括工程数据和测量数据的可视化。
3 R语言简介
R是用于统计分析、统计绘图的语言和操作环境,是属于GNU系统的一个自由、免费、源代码开放的软件。是贝尔实验室(BeflLaboratories)的RickBeeke、JohnChamberS和AllanWilkS开发的s语言的一种实现,提供了一系列统计和图形显示工具。s语言则是目前比较流行的统计软件S-PLUS的基础。R的创始人RosSIhaka和RobertGentleman,由于这两位“R之父”的名字都是以R开头,所以就命令为R。
4 R的绘图系统
在数据挖掘过程中,当完成数据的导入、清洗,并将其汇总统计以后,接下来的工作就是绘图,R有三种不同的绘图系统可供选择:
第一个图形系统base图形系统是最古老的系统,在R的存在初期它就已经存在了,base图形很容易上手,但其所绘制的图形有时需要大量的修改,而且它很难扩展到新的图标类型中,通过对base中的一些限制进行开发形成了grid图形系统,从而使绘图更加灵活,grid允许你在绘图时涉及系统底层,可以具体指定在哪里画哪个点、线或矩形。
第二个图形系统lattice建立在grid系统之上,它为所有常见的图表类型提供了高级函数,它有两个突出的特点是base图形系统所不具备的。首先,每个绘图的结果能被保存到一个变量中,而不仅仅是绘制在屏幕上;第二,它可以在一个格子中包含多个面板,因此你能把数据分成不同的类别并比较各组之间的差异。
第三个图形系统ggplot2是也建立在grid系统之上,gg代表granlnlar of graphics(制图语法),其目标在于把图形分解成不同的组块。ggplot2图形系统是功能最强大的图形系统,你几乎可可以使用ggplot2做任何事情,但它与其他图形系统相比需要更多的计算。
5通过R实现数据可视化
数据可视化本身是一门复杂的学科,包含了很多方面,在R中实现数据可视化,目前主要是指数据的统计图展示。在展示时,分为低维数据的展示和多维数据的展示。由于ggplot2图形系统是R中功能最强大的图形系统,使用ggplot2展示的数据会更加美观和方便,所以本文在展示R中的各类统计图时选用ggplot2图形系统。
在使用ggplot2之前,需要先安装并载入该包:
install.packages(“ggplot2”)
library(ggplot2)
5.1散点图
散点图是展示在回归分析中,数据点在直角坐标系平面上的分布图。
文档评论(0)