- 11
- 0
- 约1.52万字
- 约 101页
- 2017-03-29 发布于湖北
- 举报
1(课件)引言和数据预处理解读
?现代数据挖掘概念的首次国际学术会议 1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD:Knowledge Discovery in Database)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。?相继开展的专题讨论会 随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。?第一届KDD国际学术会议?随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD(Special Interested Group on Knowledge Discovery in Databases) International Conference on Knowledge Discovery and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayyad提出。 SIGKDD?Explorations”是ACM?SIGKDD的官方刊物,每年出版两次,并在合适的情况下出版特刊 KDD 2012在中国北京 举行 ,腾讯 赞助KDD杯 * 美国一个著名的科学家说:我们如此幸运拥有如此多的信息,然而又如此不幸淹没在了信息中。 * * * * * 垃圾进,垃圾出 * * 进行了线性变换。 可灵活指定规范化后的取值 区间,可以消除不同属性之间的权重差异。 缺点:需要预先知道该属性的最大值与最小值;另一方面,该方法保持原始数据值之间的联系,如果今后的输入落在原始数据值域之外,该方法将发生“越界”错误。对离群点敏感。(离群点是只偏离中心水平的哪些极大 和极小 ) * 优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好;缺点:计算复杂度高。 * * * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 这个示例的图比较小,不知大家是否能看清楚,如果看不清楚,则请参阅书上第59页的图(概念与技术),只是那个图上数字的位数非常多,现在这个示例为了简单化,省略了一些数字位。 参阅书第59页的步骤。 * 数据立方体的聚集(2) 维度约简(Dimensionality reduction) 从数据中去掉不相关的属性(维度)。 去掉相关属性,或者保留不相关属性不利于挖掘。 包含了不相关或冗余属性,会降低挖掘的效率。 属性子集选择。 找出一个最小的属性子集,使得用这些属性来描述的数据的概率分布,等同于(最大限度地等同于)原始数据的概率分布。 常常使用启发式策略来减小搜索空间。 属性子集的选择效果,通常用统计重要性、信息增益等来评价。 属性子集选择(1) 逐步向前选择 在原始数据中,选择“最佳”属性; 在剩余的属性中,继续选择“最佳”属性。 …… 属性子集选择(2) 逐步向后消除 在原始数据中,去掉“最差”属性; 在剩余的属性中,继续去掉“最差”属性。 …… 属性子集选择(3) 逐步向前选择与逐步向后消除相结合 在原始数据中,选择一个“最佳”的属性,去掉一个“最差”的属性; …… 属性子集选择(4) 决策树归纳 训练一棵决策树; 去掉原始数据中,那些没有在决策树中出现的属性。 数值归约(Numerosity reduction) 通过选择更小的数据表示形式来约简数据量。 有参方法 使用一个参数模型估计数据,最后只要存储参数即可,不用存储数据(除了可能的离群点) 常用方法:线性回归方法;多元回归
您可能关注的文档
- 基本概念和受力分析精要.ppt
- 基本财务报表的介绍精要.ppt
- 0地球上的水(最新)解读.ppt
- 基本面分析精要.ppt
- 1-01计算机历史大事记-陈勇解读.doc
- 1-1-3焊接自控解读.ppt
- 拟写新闻标题(公开课上课)讲述.ppt
- 基桩质量检测方案精要.doc
- 拷贝稿:企业财务绩效及其股权激励讲述.ppt
- 1-1.2016年土建施工员考试题(含答案)解读.doc
- 2026年及未来5年内中国液体氩气行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国黄铜合页行业投资前景及策略咨询研究报告.docx
- 2026年及未来5年内中国竹工艺家具行业投资前景及策略咨询研究报告.docx
- 2025年中国微机数显自动分析仪市场调查研究报告.docx
- 2026年及未来5年内中国微尘白色粉笔行业投资前景及策略咨询研究报告.docx
- 2025年中国微电脑型压胶机市场调查研究报告.docx
- 2026年及未来5年内中国数字化等功游泳训练测试系统行业投资前景及策略咨询研究报告.docx
- 2025年中国圆形花瓶市场调查研究报告.docx
- 2026年及未来5年内中国植物纤维静淀过滤器行业投资前景及策略咨询研究报告.docx
- 2025年中国超音波手套机市场调查研究报告.docx
最近下载
- 平潭澳海上风电场项目可研收口报告2018年4月版本15工程设计概算表.pdf VIP
- 2024年常州信息职业技术学院单招职业技能测试题库(历年真题).docx VIP
- 腹膜透析指南(2025年版).docx VIP
- 党的二十届四中全会PPT课件.ppt VIP
- 产品设计与实训 设计实训.ppt VIP
- 施工现场建筑垃圾减量化专项方案.pdf VIP
- 《数学史》数学的起源.pptx VIP
- 2026年信息科技课标试题及答案.doc VIP
- 本科课件-ArcGIS Engine地理信息系统开发教程(完整).ppt
- 北京通州区2022-2023学年高一下学期期末质量检测英语试卷 含解析.docx VIP
原创力文档

文档评论(0)