- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
进行数据挖掘之前与R语言
进行数据挖掘之前 数据集成 数据集成:将多个数据源中的数据结合起来存放一个一致的数据存储的过程 数据集成包括数据集成和模式集成。 例如:在一个企业的两个数据源中我们分别以cust-id 和customer-no来标识用户,数据集成时,把标识相同的客户和在一起 A.cust-id==B.customer-no 用户标识的定义不同 A表:ID=”23442” B表:ID=”SH23442” String(A.cust-id)== String(B. customer-no).Substr(2,length-2) 进行数据挖掘之前-数据预处理 数据预处理 数据预处理原因:①现实世界的数据是“杂乱的”。 ②数据挖掘需要高质量的数据。 如何对数据进行预处理 ◆数据清理 ◆数据转换 ◆ 数据的规约 数据清理 格式标准化 异常数据清除 错误纠正 重复数据的清除 处理缺失数据 处理重复数据 处理噪声数据 处理异常数据 目标: 提高数据质量的四个环节 数据转换 分类: 常规数据转换 通常通过线性或非线性的数学变换方法等方式将数据转换成适用于数据挖掘的形式。 非常规数据的数据变换 根据数据的特性会有较多的形式各异的转换方式。 数据转换 常见转换方法: 为了减少数据复杂度,用高层概念替换底层概念。 专注于数据规范化,是数据按比例缩放,落入特定区域。 做属性构选,通过一个或多个属性的变换计算构造出新的属性。 数据转换 ⑴标准差标准化 所谓标准差标准化是将各个记录值减去记录值的平均值在除以记录值的标准差 X’=(Xij-Xia)/Si n Xia为平均值,表达式为 Xia=1/n∑Xij j=1 n 设Sij是标准差有:Si=√1/n ∑(Xij-Xia) j=1 数据转换 (2)极差标准化 极差标准化变换是将各个记录值减去记录值的平均值,在除以记录值的极差。 X’ij=(Xij-Xia))/(max(Xij)-min(Xij)) (3)极差正规化 X’ij=(Xij-min(Xij))/(max(Xij)-min(Xij)) 将各个记录值减去记录值的极小值,在除以记录值的极差 。 数据转换 最小—最大规范化处理 将所有数据转化到我们新设定的最小和最大值的区间内。 数据的规约 更少的数据,提高挖掘效果 更高的数据挖掘处理精度 简单的数据挖掘处理结果 更少的数据特征 删除列 删除行 减少列中的值 效果: 由于数据规约对原始数据通常都是有损的,尽量不使用规约。 基本操作: R语言简介 R语言基本语法结构 标准的和基于各种设备的输入/输出 面向对象编程方式和数学编程方式 分布式计算结构 引用程序包 数学和统计学各种函数包括:基本数学函数,模拟和随数产生函数基本统计函数和概率分布函数 机器语言学习功能 信号处理功能 统计学建模和测试功能 静态和动态的图形展示 R语言简介 R语言在数据挖掘中的优势: 最廉价(免费) 最全面的算法 最完美多样的数据展示 最狂热的爱好者社区 R语言的整个语法结构完全来自S语言,突出两个特点是:函数或编程和向量化计算。 背景特点 简介R语言常用的包 CORElearn包:程序包集合了多种分类算法和回归模型 例如:朴素贝叶斯,随机森林,决策树,回归分析等。 E1071包:综合了众多数数据挖掘的包,其中被使用较多的SUM()函数实现支持向量化。 Rpart包:提供有效处理稀疏二元数据的数据结构,而且提供函数用Apriori算法和Edat算法来挖掘频繁项集最大频繁项集,闭频繁项集合和关联规则。 Random forest包:实现随机森林算法。 ROCR包:是专门用于做模型评估的,可以方便的绘出ROC图。 MATLAB(MATtrix LABoratary)矩阵实验室 功能: ① MATLAB将数值分析,矩阵计算,科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中。 ②可以轻易地描绘二维和三维图形。 特点:高效的数学表达式表现方式,数值计算及符号计算功能。 语言:MATLAB语言是简化版的类C++语言。 其他商用数据挖掘工具 SPSS Modeler 支持整个数据挖掘流程,包括从数据获取,转化,建模,评估到最终部署的全部过程。 SAS Enter Miner 可利用具有图形化
您可能关注的文档
- 过程控制系统与装置7.ppt
- 过程控制系统工程设计.ppt
- 过程控制系统2012-5-学生用.ppt
- 过程控制第2章01(仪表组成、误差、安全栅2013).ppt
- 过程控制系统[李国勇][电子教案]第9章解耦控制系统.ppt
- 过程控制系统复习题库.doc
- 过程控制系统课件 第八章 第二节 串级控制系统.ppt
- 过程控制系统课件 第八章_第五六七八节.ppt
- 过程控制系统绪论及第一章.ppt
- 过程装备 故障诊断 绪论.ppt
- 部编版一年级语文下册第四单元《8 夜色》教学课件(2025年春-新编教材).pptx
- 江苏省盐城市五校2024-2025学年高一下学期4月期中联考数学试卷(含答案).pdf
- 2025年高一语文教师工作总结简单版(六).docx
- 第12课《台阶》课件 2024—2025学年统编版语文七年级下册(共39张PPT).pptx
- 部编版一年级语文下册第四单元《语文园地四》教学课件(2025年春-新编教材).pptx
- 部编版一年级语文下册第四单元《9 端午粽》教学课件(2025年春-新编教材).pptx
- 指导技能的关键要素与提升的策略研究与分享.docx
- 湖南省永州四中直升班2025届高三(下)适应性数学试卷(含答案).pdf
- 湖北省荆荆宜襄·四地七校联盟2024-2025学年高一(下)期中联考数学试卷(含答案).pdf
- 2025年04月17日袁荣的初中历史组卷.docx
文档评论(0)