数据挖掘绪论.pptVIP

下载本文档

6
0
约5.31千字
约 34页
2015-08-19 发布于河南
举报
版权申诉

数据挖掘绪论.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘绪论.ppt

人工智能华中科技大学水电与数字化工程学院数据、信息和知识的区别？第一章、绪论为什么要进行数据挖掘数据挖掘的定义数据挖掘的起源数据挖掘的任务数据挖掘的挑战课程内容 1.1 为什么要进行数据挖掘? - From Commercial Viewpoint Why Mine Data? - From Scientific Viewpoint 数据的收集和存储以巨大的速度进行(GB/小时) 人造卫星上的远程传感器浓缩的天空扫描图像数据表达的基因队列科学模拟产生的TB数据(1000GB) 传统技术无法对原始数据进行处理数据挖掘可以帮助人们: 分类和分段数据以新的形式表示数据 Mining Large Data Sets - Motivation 1.2 数据挖掘的定义什么是数据挖掘？ 1）数据挖掘就是从大量数据中提取或挖掘知识. 知识是有用的、隐含在原数据中未知的、用户感兴趣的信息或模式，具有预测未来结果的能力. 不同于信息查询（DBMS）和信息检索（搜索引擎），它们主要是依赖传统的统计和数据明显的特征来创建索引结构. 2）从数据中析取出暗含的、先前未知的、潜在有用的（非微不足道的）信息. 3）为了发现有意义的模式，以自动化或半自动化的方式，在大量数据中进行探测和分析. 4）也称为数据库中的知识发现(Knowledge Discover Database，KDD)，是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。在医药书目中查所需的医学书籍. 通过Web搜索引擎查询Amazon的信息. 某些疫病在世界哪几个地区较流行. 根据内容把从搜索引擎返回的相似信息进行归类数据挖掘与其他典型的数据仓库应用，如结构化查询语言(SQL)和联机分析处理工具(OLAP),它们之间有什么不同？ △SQL是一种在数据库上强加一些约束以便获得答案。而数据挖掘方法用于进行另一种查询，是一种探测性地获得隐蔽的而不明显信息的方法。 △OLAP为用户提供多个数据视图来对数据仓库的数据进行分析，可以从任意角度观察空间数据或对其切片和切块，但不依赖于数据，也不创造出新的知识,仅提供导出数据的答案。它对数据挖掘过程很有用，可作为数据挖掘的一部分，但不能代替数据挖掘。 1.3 数据挖掘的起源从统计学、人工智能、机器学习、模式识别、数据库系统等学科吸取了许多营养和知识. 1.4 数据挖掘的两类根本任务：描述（Description Methods ）: 刻画数据库中数据的一般特性。发现能够描述数据的人们可以理解或解释的模式。在数据集上生成新的、非同寻常的信息。预测（ Prediction Methods ）: 在当前数据上进行推断，以进行预测。用一些变量去预测其它变量的未知值或将来值。生成已知数据集的系统模型。数据挖掘的基本任务： 1.分类 Classification [预测]： 2.聚类 Clustering [描述]： 3.关联分析 Association Rule Discovery [描述] ： 4.序列模式 Sequential Pattern Discovery [描述] ： 5.回归 Regression [预测]： 6.异常/偏差检测 Deviation Detection [预测]： 1.4.1 分类：给定一组记录（训练集合）每一个记录包含多个属性，其中一个属性为类属性发现一个类属性模型，它以其它属性值为函数目标：尽可能准确地给新来的没有类标记的记录指派一个适当的类值通常，给定的数据库被分为训练集和测试集两部分，训练集用来学习模型，测试集用来验证模型。 Classification Process (1): Model Construction Classification Process (2): Use Model in Prediction 应用1：目标营销目标：通过提前锁定一组很可能购买新商品的客户群体，减少邮寄宣传品的费用。方法：使用以前介绍过的类似产品的数据；我们清楚历史数据中哪些用户决定买，哪些用户不决定买；{买或不买}形成类属性；收集大量消费者的各种各样的人口统计学的、生活方式的以及与公司交互的相关信息。如就职的企业类型、居住地、收入等。使用这些信息作为输入来学习分类器的模型。应用2：欺骗检测目标：在信用卡事务处理过程中预知欺诈事件的发生。方法：使用信用卡事务处理记录,并把帐号持有者的一些信息作为属性. 把过去的事务标记为欺诈事务或正常事务,并把其看作类属性. 从事务库中学习出分类模型. 通过留心某个用户的信用卡事务,使用该模型探测是否存在欺诈. 应用3：客户流失目标: