- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第32卷第6期 杭州 电子科 技 大 学 学 报 Vd.32,No.6
20l2年 I2月 Journal 0f HangrJaou Dianzi University Dee.2O12
doi:10.3969/j.issn.1001-9146.2012.06—042
R语言在数据预处理中的开发应用
肖颖为,葛 铭
(杭州电子科技大学信息与控制研究所,浙江 杭州310018)
摘要:该文针对数据挖掘前期的数据预处理中数据观察和理解的灵活性不足开发周期长的问题,
引入统计性语言R语言来开发数据预处理中需要实现的功能,搭建了数据预处理的流程结构,并
将数据挖掘中的聚类算法,决策树算法引入前期的数据分析中来,这套应用系统能够方便快捷的
观察数据并且根据实际需求来处理数据。最后使其处理电信公司的用户数据,取得了良好的
效果。
关键词:数据预处理;数据挖掘;统计语言
中图分类号:TN401 文献标识码:A 文章编号 :1001—9146(2012)06—0165—04
0 引 言
目前数据的主要研究方向集中在挖掘技术和算法领域,但现实中的数据错综复杂,对数据的业务理
解因人而异.数据源不统一,系统故障,操作不规范等等原因数据将不可避免的存在缺失数据、冗余数
据、不一一致数据等情况,这些 “脏数据”将极大影响整个数据挖掘的建模过程导致错误的模型…。大量
实践证明,在数据挖掘系统中,数据前期的理解和预处理阶段要花费60%左右的时间,要得到一个准确
的模型,高质量的数据是必不可少的,所以在建模前期如何提取数据元信息,如何与专家和业务人员沟
通来理解分析数据是非常重要的。而统计方法是强有力的诊断分析工具,能以此来促进挖掘模型中的
参数估计、变量的假设检验和其他此类方法的发展 J,为此,本文提出引入 目前在统计学领域发展最快
的R语言工具来辅助对数据的理解和预处理,参考业内公认的商业数据挖掘模型CRISP—MD,搭建了一
个简单的分析流程,并使用某家电信公司的客户数据进 测试分析,并取得了良好的分析效果。
1 R语言特征
R是一种为统计计算和图形显示而设计的语言环境,是贝尔实验室的RickBecker,JohnChambers
和AllanWilks开发的S语言的一种实现。其主要特点是具备一系列连贯而又完整的数据分析中间工
具,拥有一整套数组和矩阵操作运算符能有效地处理保存数据,其图形统计功能可以对数据直接进行分
析和显示,加上 R是一种面向对象的可编程语言,和其它编程语言、数据库之间有很好的接 口[31。R还
是免费开源软件,并且有强大的社区资源,提供了非常丰富的程序包,有很多专家、贡献者提供学习指
导、前沿领域的探讨。
现有的ELT工具能够提供一般化的预处理功能,但灵活性不足,而独 自开发 ELT工具又要面临开
发时间长,费用过高的问题,引入R来分析数据并且实现数据预处理可以灵活地定制需要的数据来实
现挖掘,R有强大函数拓展包和图像展示功能,可以方便快捷地提供数据信息并且进行数据处理,这个
过程提供了良好的互动环境使得业务人员和专家的参与,为之后的模型设计和选择提供了良好的支持。
收稿 日期 :2010—09—25
作者简介:肖颖为(1987一),男,湖南郴州人,在读研究生,数据挖掘.
166 杭 州 电子 科 技 大 学 学报 2012年
目前 R在统计学领域和数字分析领域是增长最快的工具,在国外被广泛应用,在国内尚处于发展期,按
如此趋势未来R的应用面将越来越广。
2 数据理解和数据准备功能设计
本文提出的一个思路是将数据预处理的一系列方法流程化,通过数据输入,数据反馈输出来进行互
动式的数据理解和数据准备,这可以为真正需要进行的数据的预处理提供决策支持。流程图如图 1
所示:
数据消挽 数据消减 数据转换 数据理解
空值处理 类型判断 ll糟性关系
您可能关注的文档
最近下载
- 教师资格证初中数学教案汇总.pdf VIP
- 海外留学生体育活动参与情况与身体素质的研究教学研究课题报告.docx
- 教科版新版科学三年级上册《8.天气的影响》教案.docx VIP
- 如何设计护理研究方案.pptx VIP
- 英语演讲技巧与实践 课件 Chapter1 Understanding Public Speaking.pptx
- 低空与低空经济分析与研究.pptx VIP
- 成长英语教师用书 进阶篇PPTUnit 7.pptx VIP
- 农村宅基地培训.pptx VIP
- 变电站设备巡视检查及验收培训课件[1].ppt VIP
- 《保险基础与实务》(徐昆第4版) 课件 第二章 保险原则与保险合同.pptx
文档评论(0)