Uway_DM数据挖掘简述.pptxVIP

下载本文档

22
0
约 63页
2016-12-03 发布于重庆
举报
版权申诉

Uway_DM数据挖掘简述.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Uway_DM数据挖掘简述

UwayData Mining Wekazhangc@uway.cnDM概述相关概念主要算法Weka的使用DM概述数据挖掘（Data mining）数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中，通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。DM主要任务预测任务：根据其它属性的值预测特定（目标）属性的值，如回归、分类、异常检测。描述任务：寻找概括数据中潜在联系的模式，如关联分析、演化分析、聚类分析、序列模式挖掘。DM日常应用应用领域互联网：电子商务购物篮分析；广告定投；用户感知评价；网络入侵智能检测金融：证券市场投资电信：客户行为分析、精准营销电力：电力负荷预测生产：养殖投入产出多目标优化仿真医疗卫生：病例分析……DM主要步骤Knowledge模式评估数据挖掘任务相关数据选择数据仓库数据清理数据集成DM主要步骤了解应用领域相关的知识和应用的目标创建目标数据集: 选择数据，数据整合数据清理和预处理: (这个可能要占全过程60％的工作量)数据缩减和变换找到有用的特征，维数缩减/变量缩减，不变量的表示。选择数据挖掘的功能数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等.选择挖掘算法，寻找感兴趣的模式模式评估和知识表示可视化，转换，消除冗余模式等等运用发现的知识DM主要步骤——数据清洗为什么要预处理数据不完整的含有噪声的不一致的没有高质量的数据，就没有高质量的挖掘结果DM主要步骤——数据清洗数据筛选剔除不必要的噪声点。噪声：一个测量变量中的随机错误或偏差A.分箱（binning）（等深或等宽分箱）首先排序数据，并将他们分到等深或等宽的箱中，然后可以按箱的平均值平滑，按箱中值平滑，按箱的边界值平滑B．聚类：检测并且去除孤立点C．计算机和人工检查结合：计算机检测可疑数据，然后对他们进行人工判断D．回归：通过让数据适应回归函数来平滑数据，对连续的数字型数据较好DM主要步骤——数据清洗数据变量转换将某一数据进行某种转换，并将转换后的值作为新的变量存放在样本数据中。目的是为了使数据和将来要建立的模型更好的拟合。DM主要步骤——数据清洗缺失值处理空值存在的主要影响：1、系统丢失了大量有用信息。2、系统所表现的不确定性更加显著。3、包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。处理方法：A．忽略元组B．人工填写空缺值C．使用一个全局变量填充空缺值D．使用属性的平均值填充空缺值E．使用与给定元组属同一类的所有样本的平均值F．使用最可能的值填充空缺值，使用像Bayesian公式或判定树这样的基于推理的方法DM主要步骤——数据清洗坏数据处理可使用绝对均值法或莱因法等对样本中的坏点数据进行剔除处理。DM主要步骤——数据清洗数据标准化目的是消除变量间的量纲关系，从而使数据具有可比性。比如不同进制数据的比较。常用的有：Z标准化（均值为0，方差为1）、0-1标准化、最小-最大规范化、小数定标规范化等。DM主要步骤——数据清洗主成分分析主成分分析（PCA）是用几个较少的综合指标来代替原来较多的指标，尽可能反应原有用信息，且综合指标相互之间是无关的。PCA运算就是一种确定一个坐标系统的直交变换，在这个新的坐标系统下，变换数据点的方差沿新的坐标轴得到了最大化。这些坐标轴经常被称为是主成分。PCA运算利用了数据集统计性质的特征空间变换。DM主要步骤——数据清洗属性选择数据集中，各个属性所含信息熵不同。采用相应算法，对数据属性值进行评估，如去掉某属性后，对挖掘结果无影响，从而较少后续挖掘算法的运行时间，也能有效的去除噪声数据。DM主要步骤——数据清洗数据规约将繁杂的样本数据进行简化处理（压缩）。数据离散化：数据归约的一部分，通过概念分层和数据的离散化来规约数据，对数字型数据特别重要 DM主要步骤——数据清洗总结噪声点处理（增加/减少噪声点）、空值处理降维处理标准化处理DM主要分析方法概念/类描述: 特性化和区分归纳，总结和对比数据的特性。关联分析发现数据之间的关联规则，这些规则展示属性－值频繁的在给定的数据中所一起出现的条件。分类和预测通过构造模型 (或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。聚类分析将类似的数据归类到一起，形成一个新的类别进行分析。孤立点分析通常孤立点被作为“噪音”或异常被丢弃，但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。趋势和演变分析描述行为随时间变化的对象的发展规律或趋势模型评估定性评估标准预测的准确率正确预测新样本的准确率。速度产生和使用模型的计算开销