数据挖掘教学提纲.pptx

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘:技术及其应用沙朝锋复旦大学计算机科学与工程系大纲数据挖掘定义分类问题聚类问题关联分析文本挖掘Web挖掘社会网络分析…什么是数据挖掘?从数据中识别有效的、新奇的、有用的以及可理解的模式的过程.也称为KDD 数据库中的知识发现 (Knowledge Discovery in Databases)“We’re drowning in information, but starving for knowledge.” - John Naisbett相关领域机器学习 (Machine learning)数据库 (Databases)统计学 (Statistics)信息检索 (Information retrieval)可视化 (Visualization)高性能计算 (High-performance computing)...相关领域数据库系统统计学数据挖掘机器学习可视化算法其他领域数据挖掘应用电子商务 (E-commerce)市场和零售 (Marketing and retail)金融 (Finance)电信 (Telecoms)药物设计 (Drug design)过程控制 (Process control)...数据挖掘过程了解领域,先验知识,和目标数据集成和选取数据清洗和预处理建模和模式搜索解释结果整理并使用发现的知识循环数据挖掘:一个KDD过程Knowledge模式评估数据挖掘—KDD过程的核心数据挖掘任务相关的数据选取数据仓库数据清洗数据集成数据库数据挖掘和商务智能提升对商务决策的支持最总用户 做出决策商务分析员数据表示可视化技术数据挖掘 数据分析员信息发现数据检查统计分析, 查询和报告数据仓库 / 数据超市OLAP, MDADBA数据源论文, 文件, 信息提供商, 数据库系统, OLTP框架:典型的数据挖掘系统图形用户接口模式评估数据挖掘引擎知识库数据库或数据仓库服务器过滤数据清洗集成数据仓库数据库数据挖掘:数据源关系数据库数据仓库事务数据库高级数据库和信息库面向对象数据库空间和时态数据库时序数据流数据多媒体数据库异种数据库文本数据库 WWW数据挖掘任务 I分类 (Classification)构造模型(函数)来描述和区分各种类别或概念用于未来的预测表示: 决策树, 分类规则, 神经网络预测未知或丢失的数值信息提取 (Information extraction)协同过滤 (Collaborative Filtering)回归分析 (Regression)概率估计 (Probability estimation)数据挖掘任务 II聚类 (Clustering)类的标签未知: 对数据分组来形成新的类, 如: 对房子聚类来发现分布模式把类内的相似性最大化 类间的相似性最小化奇异点检测关联发现 (Association detection)尿布 à 啤酒 [0.5%, 75%]总结 (Summarization)趋势和偏差检测 (Trend and deviation detection)...分类: 定义给定一个记录(样本)集合 (训练集 )每条记录有一些属性组成, 其中一个属性为类别.(x1, x2, …, xn, c)找到一个将类别属性表示为其他属性的函数的模型. (如c = f(x))目标: 未见过的记录尽可能准确地被分类.一个测试集用来确定模型的精度. 通常, 给定的数据集被分成训练集和测试集, 训练集用于建立模型, 而测试集用于检验该模型.分类任务演示分类任务例子预测肿瘤细胞是良性还是恶性将信用卡交易分为正常或是欺诈对蛋白质的二级结构进行分类手写体的识别: 0, 1, …, 9Email过滤: 识别垃圾邮件常用的方法决策树 (Decision trees)规则归纳 (Rule induction)贝叶斯学习 (Bayesian learning)神经网络 (Neural networks)支持向量机 (Support Vector Machine)Ensemble方法 (AdaBoost, Bagging...)…categoricalcategoricalcontinuousclass决策树例子划分属性RefundYesNoNOMarStMarried Single, DivorcedTaxIncNO 80K 80KYESNO模型: 决策树训练数据NO另一个决策树例子Single, DivorcedMarStcategoricalcategoricalcontinuousMarried classNORefundNoYesTaxInc 80K 80KYESNO可能有多棵决策树拟合同一个数据集!决策树分类任务决策树RefundYesNoNOMarStMarried Single, DivorcedTa

文档评论(0)

159****5431 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档