- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
1(课件)引言和数据预处理
?现代数据挖掘概念的首次国际学术会议 1989年8月在美国底特律召开的第11届国际联合人工智能学术会议(IJCAI-89)上,Gregory Piatetsky-Shapiro组织了“数据库中的知识发现”(KDD:Knowledge Discovery in Database)专题讨论会,该讨论会的重点是强调发现(Discovery)的方法以及发现的是知识(Knowledge)两个方面。?相继开展的专题讨论会 随后在1991、1993和1994年都举行了KDD专题讨论会,来自各个领域的研究人员和应用开发者集中讨论了数据统计、海量数据分析算法、知识表示和知识运用等问题。?第一届KDD国际学术会议?随着参与科研和开发人员的不断增加,国际KDD组委会于1995年把专题讨论会发展成为国际年会。在加拿大的蒙特利尔市召开了第一届KDD国际学术会。其会议名称全称为“ACM SIGKDD(Special Interested Group on Knowledge Discovery in Databases) International Conference on Knowledge Discovery and Data Mining”在这次会议上“数据挖掘”(Data Mining)概念第一次由Usama Fayyad提出。 SIGKDD?Explorations”是ACM?SIGKDD的官方刊物,每年出版两次,并在合适的情况下出版特刊 KDD 2012在中国北京 举行 ,腾讯 赞助KDD杯 * 美国一个著名的科学家说:我们如此幸运拥有如此多的信息,然而又如此不幸淹没在了信息中。 * * * * * 垃圾进,垃圾出 * * 进行了线性变换。 可灵活指定规范化后的取值 区间,可以消除不同属性之间的权重差异。 缺点:需要预先知道该属性的最大值与最小值;另一方面,该方法保持原始数据值之间的联系,如果今后的输入落在原始数据值域之外,该方法将发生“越界”错误。对离群点敏感。(离群点是只偏离中心水平的哪些极大 和极小 ) * 优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好;缺点:计算复杂度高。 * * * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * * 数据挖掘的实践中,使用离散化进行数据规约主要是适用于以下三类属性值…,连续值(比如实数),如果不使用离散化进行表示,其个数将是无穷无尽的。 怎么离散化?…基于判定树的分类挖掘的大部分时间花在数据的分类和比较上(比如一个判定条件为:400?,0-1000的整数将在比较1000次后得出结果,但是如果先将这1000个值划分为10个区间:0-100,100-200…900-1000,则只要比较10次就可以得出结果) * 这个示例的图比较小,不知大家是否能看清楚,如果看不清楚,则请参阅书上第59页的图(概念与技术),只是那个图上数字的位数非常多,现在这个示例为了简单化,省略了一些数字位。 参阅书第59页的步骤。 * 数据立方体的聚集(2) 维度约简(Dimensionality reduction) 从数据中去掉不相关的属性(维度)。 去掉相关属性,或者保留不相关属性不利于挖掘。 包含了不相关或冗余属性,会降低挖掘的效率。 属性子集选择。 找出一个最小的属性子集,使得用这些属性来描述的数据的概率分布,等同于(最大限度地等同于)原始数据的概率分布。 常常使用启发式策略来减小搜索空间。 属性子集的选择效果,通常用统计重要性、信息增益等来评价。 属性子集选择(1) 逐步向前选择 在原始数据中,选择“最佳”属性; 在剩余的属性中,继续选择“最佳”属性。 …… 属性子集选择(2) 逐步向后消除 在原始数据中,去掉“最差”属性; 在剩余的属性中,继续去掉“最差”属性。 …… 属性子集选择(3) 逐步向前选择与逐步向后消除相结合 在原始数据中,选择一个“最佳”的属性,去掉一个“最差”的属性; …… 属性子集选择(4) 决策树归纳 训练一棵决策树; 去掉原始数据中,那些没有在决策树中出现的属性。 数值归约(Numerosity reduction) 通过选择更小的数据表示形式来约简数据量。 有参方法 使用一个参数模型估计数据,最后只要存储参数即可,不用存储数据(除了可能的离群点) 常用方法:线性回归方法;多元回归
您可能关注的文档
- 091020修改 第六章 插值与逼近.ppt
- 09急性中毒概述.ppt
- 09年司法考试卷二解析.doc
- 09新 输入输出与文件处理.ppt
- 09存储器管理1.ppt
- 09第三节 牛顿运动定律的综合应用.ppt
- 09-模板工程-终稿-2010.06.08.doc
- 090209厂校结合汽车电器空调培训课件.ppt
- 09第九章:财产清查.doc
- 09级1-5班《计算机组成原理》期末考试卷(B卷).doc
- 计量规程规范 JJF 2326-2025甚高频信标导航测试仪校准规范.pdf
- JJF 1274-2025运动黏度测定器校准规范.pdf
- JJF 2326-2025甚高频信标导航测试仪校准规范.pdf
- 《JJF 1274-2025运动黏度测定器校准规范》.pdf
- 计量规程规范 JJF 1274-2025运动黏度测定器校准规范.pdf
- JJF 2340-2025氰化物水质在线分析仪校准规范.pdf
- 计量规程规范 JJF 2340-2025氰化物水质在线分析仪校准规范.pdf
- 《JJF 2340-2025氰化物水质在线分析仪校准规范》.pdf
- 计量规程规范 JJF 2330-2025城镇燃气相对密度计校准规范.pdf
- JJF 2330-2025城镇燃气相对密度计校准规范.pdf
最近下载
- 人教PEP版四年级英语上册Unit 6《Meet my family》Part A 配套课件.ppt VIP
- 揭开麻城孝感乡移民发源地之谜.doc VIP
- (38)--社区禁毒服务的工作服务中心禁毒社会工作.pdf VIP
- DL_T 724-2021 电力系统用蓄电池直流电源装置运行与维护技术规程.docx VIP
- 学堂在线 大国航母与舰载机(2025秋) 作业答案.docx VIP
- 看看 ws430_原创文档.pdf VIP
- 鄂尔多斯市人才发展集团有限公司人才储备笔试历年参考题库附带答案详解.pdf
- 石家庄轻工业调查报告.doc VIP
- 2025年体育单招语文试题附答案.docx VIP
- 《中越春节风俗差异》课件.ppt VIP
原创力文档


文档评论(0)