数据挖掘PPT全套课件.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘: 绪论;数据 电子商务网站的日志 银行帐务数据 顾客购物的数据 ;;什么是数据挖掘?;什么是数据挖掘?什么不是?;数据挖掘利用了来自如下一些领域的思想: (1)统计学的抽样、估计、假设检验 (2)人工智能、模式识别、机器学习 的搜索算法/建摸技术、学习理论 (3)最优化、进化算法、 信息论、信号处理、 可视化、信息检索 (4)数据库技术、并行计算 、分布式计算 传统的方法可能不适合 数据量巨大 数据维度高 数据异种性(具有序列 和三维结构的DNA数据);数据挖掘的任务;数据挖掘的任务;分类 例子;聚类;关联分析: 定义;数据挖掘的挑战;可伸缩;高维性;异种数据和复杂数据;2. DIP数据库 ;内容安排;数据挖掘: 数据;目录;什么是数据?;属性与属性值;例2.4 线段长度 ;属性的不同类型;;;用值的个数描述属性--离散和连续属性 ;数据集的类型 ;数据集的类型 ;记录数据;记录数据-数据矩阵 ;记录数据-稀疏数据矩阵;记录数据-事务数据;基于图形的数据-带有对象之间联系的数据 ;公路交通网 ;;基于图形的数据-具有图形对象的数据 ;具有图形对象的数据-信号转导通路;具有图形对象的数据-代谢通路;有序数据-时序数据 ;有序数据-时间序列数据;有序数据-时间序列数据;有序数据-序列数据 ;有序数据-空间数据;有序数据-空间数据;目录;2.2数据质量 ;噪声;离群点;遗漏值;;重复数据;目录;2.3数据预处理(重点);聚集;聚集-生物学例子;抽样 ;抽样 … ;抽样方法;抽样与信息损失;抽样-生物例子;抽样-生物例子;维归约;PCA;特征创建;特征创建-映射数据到新的空间;特征创建-特征构造;离散化和二元化;;连续属性离散化;离散化 ;离散化 ;变量变换;基因芯片标准化;目录;相似性和相异性的度量;各种相似度和相异度测量方法;简单属性之间的相似度和相异度(重点);数据对象之间的相异度-欧氏距离;数据对象之间的相异度-明可夫斯基距离;数据对象之间的相异度-明可夫斯基距离r = 1;Minkowski Distance;城市块距离应用-衡量疾病之间的”距离”;数据对象之间的相异度-马氏距离;Mahalanobis Distance;数据对象之间的相似度;二元属性的对象之间的相似性度量(重点);SMC vs Jaccard: 例子;数据对象之间的相似度-余弦相似度;数据对象之间的相似度-相关性;应用-计算microRNA调控基因的强度;;习题:;;;;;;数据挖掘: 探索数据;什么是数据探索?;鸢尾花(Iris);;汇众统计(Summary Statistics);频率和众数(Frequency and Mode);百分位数(Percentiles);位置度量:均值和中位数( Mean and Median);散布度量: 极差和方差(Range and Variance);可视化;例子:海洋表面温度 ;可视化技术: 直方图(Histograms);二维直方图;可视化技术: 盒状图(Box Plots);盒状图的例子 ;疾病基因与各种类型基因的共表达情况;可视化技术: 散布图(Scatter Plots);散布图矩阵例子:鸢尾花;;可视化技术: 矩阵(Matrix Plots);鸢尾花数据矩阵的可视化;胚胎发育过程表达谱;鸢尾花相关矩阵的可视化;;可视化技术: 平行坐标系;鸢尾花的平行坐标系;;;其他可视化技术;Star Plots for Iris Data;Chernoff Faces for Iris Data;数据挖掘 分类:基本概念、决策树与模型评价;目录;决策树(重点);决策树的工作原理-分类器模型;决策树的工作原理-一个决策树的例子;决策树的工作原理-决策树的另一个例子;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树的工作原理-决策树应用;决策树分类;决策树(重点);如何建立决策树;如何建立决策树-Hunt 算法;;Hunt算法;如何建立决策树-决策树算法必须解决的问题(重点);决策树(重点);表示属性测试条件的方法;表示属性测试条件的方法-基于标称属性的分裂;多路划分: 划分数(输出数)取决于该属性不同属性值的个数. 二元划分: 划分数为2,需要保持序数属性值的有序性. ;表示属性测试条件的方法-基于连续属性的划分;决策树(重点);选择最佳划分的度量-怎样选择最佳划分?;选择最佳划分的度量-怎样选择最佳划分?;;选择最佳划分的度量-结点不纯性的测量;选择最佳划分的度量-结点不纯

文档评论(0)

#### + 关注
实名认证
内容提供者

1亿VIP精品文档

相关文档