数据挖掘1汇总.doc

下载文档 降价啦

12
0
约4.3千字
约 13页
2017-05-12 发布于湖北
举报
版权申诉
保障服务

数据挖掘1汇总.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘1汇总,数据挖掘算法汇总,挖掘机憋车的原因汇总,数据挖掘,数据挖掘算法,数据挖掘概念与技术,机器学习与数据挖掘,数据挖掘导论,python数据挖掘,数据挖掘技术

课程: 数据挖掘导论班级: 192131 姓名: 何张学号: 20131001583 专业: 信息安全指导教师: 刘小波 2015年6月数据挖掘摘要：从对一个UCI数据集用weka程序进行数据关联规则以及聚类处理的方法对数据挖掘进行分析得出最优关联规则以及最优聚类处理方法，并结合本专业（信息安全）讨论对数据挖掘的理解和寻找它们之间的相关性，包括数据挖掘的主要内容，以及发展前景，并对得出的结果进行总结，找出其中值得我们学习借鉴以及深入探讨的问题。关键字：数据挖掘、关联规则、聚类、weka 1介绍数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程。其出现于20世纪80年代后期，是数据库研究中一个很有应用价值的新领域，它融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1]。数据挖掘中有很多涉及到信息安全的问题，也正是我们这个专业所需要做的。在这个全民线上生活的时代，用户在网上的每一次行动，哪怕实在我们看来毫无意义的一次搜索、一次浏览、一次点名，也会被记录作为数据挖掘的资料数据，被称为用户生成内容（UGC）。用户在享受精准营销、个性化推荐带来的便捷的同时，也在深深担心个人隐私安全问题。个人处于特定目的对他人网络信息进行数据挖掘的行为被称为人肉搜索，互联网公司掌握如此众多的信息，客户自然而然要担心。对个人隐私的威胁的产生主要来自于当数据一旦被编译成用户的好友圈、爱好、个人消费偏好等个人特征，导致数据挖掘方或者任何可以接近数据集的人，能够辨别特定的个体，便存在利益侵犯的可能性。典型案例： 2012年1月，谷歌宣布整合包括youtube、gmail、google等旗下服务中搜集的用户个人信息，用户将因此从根本上失去在谷歌世界里同时管理和拥有多个不同身份的能力。谷歌的这一行为已经引起了ZF的注意，称初步调查显示新的政策不符合欧盟的数据保护指令。而谷歌等一些互联网公司认为，这些适度的隐私出让可以让用户收益，并带来社会效益的提升。如果没有得到用户足够多的数据并进行分析，google的搜索结果的满意程度会下降很多。某种程度上来说，正是这些用户数据的数据挖掘，才让互联网体的各种服务更贴心，只是有时候它出乎意料的贴心让人感觉到不安。 1.1具体内容（1）广义知识对数据的概括、精炼和抽象。发现方法和实现技术如数据立方体、面向属性的归约等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算，诸如计数、求和、平均值、最大值等，并将这些实现视图储存在多维数据库中。归约方法，这种方法以类SQL语言表示数据挖掘查询，收集数据库中的相关数据集，然后在相关数据集上应用一系列数据推广技术进行数据推广，包括属性删除、概念树提升、属性阈值控制、技术及其他聚集函数传播等[2]。（2）关联知识反应一个事件和其他事件之间依赖或关联的知识，又称依赖关系。这类知识可用于数据库中的归一化、查询优化等[3]。（3）分类知识指将数据归为一系列已知类中的某一个标记或分类的过程。它反应同类事物共同性质的特征知识和不同事物之间的差异型知识。给定一个已知其中客体类别标记的训练数据集，以及基于训练数据集中数据的特性建立的分类模型，目标是从该分类模型中生成一系列的分类规则，这些分类规则可用于对其他未来的数据进行分类。最为典型的分类方法是基于决策树的分类方法，此外还有统计、粗糙集等方法。分类和回归都可用于预测。和回归方法不同的是，分类的输出是离散的类别值，而回归的输出则是连续数值。分类的效果一般和数据的特点有关，有的数据噪声大，有的有缺值，有的分布稀疏，有的字段或属性间相关性强，有的数据是离散的而有的是连续值或混合式的。目前普遍认为不存在某种方法能适合于各种特点的数据[2]。（4）预测型知识它根据时间序列型数据，由历史和当前数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。目前时间序列预测方法有经典的统计方法、神经网络和机器学习等[2]。（5）数据挖掘的主要模型与算法[5] 1神经网络算法 2决策树 3遗传算法 4数理统计分析 5聚类分析（6）数据