- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘绪论.ppt
人工智能 华中科技大学水电与数字化工程学院 数据、信息和知识的区别? 第一章、绪论 为什么要进行数据挖掘 数据挖掘的定义 数据挖掘的起源 数据挖掘的任务 数据挖掘的挑战 课程内容 1.1 为什么要进行数据挖掘? - From Commercial Viewpoint Why Mine Data? - From Scientific Viewpoint 数据的收集和存储以巨大的速度进行(GB/小时) 人造卫星上的远程传感器 浓缩的天空扫描图像 数据表达的基因队列 科学模拟产生的TB数据(1000GB) 传统技术无法对原始数据进行处理 数据挖掘可以帮助人们: 分类和分段数据 以新的形式表示数据 Mining Large Data Sets - Motivation 1.2 数据挖掘的定义 什么是数据挖掘? 1)数据挖掘就是从大量数据中提取或挖掘知识. 知识是有用的、隐含在原数据中未知的、用户感兴趣的信息或模式,具有预测未来结果的能力. 不同于信息查询(DBMS)和信息检索(搜索引擎),它们主要是依赖传统的统计和数据明显的特征来创建索引结构. 2)从数据中析取出暗含的、先前未知的、潜在有用的(非微不足道的)信息. 3)为了发现有意义的模式,以自动化或半自动化的方式,在大量数据中进行探测和分析. 4)也称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。 在医药书目中查所需的医学书籍. 通过Web搜索引擎查询Amazon的信息. 某些疫病在世界哪几个地区较流行. 根据内容把从搜索引擎返回的相似信息进行归类 数据挖掘与其他典型的数据仓库应用,如结构化查询语言(SQL)和联机分析处理工具(OLAP),它们之间有什么不同? △SQL是一种在数据库上强加一些约束以便获得答案。而数据挖掘方法用于进行另一种查询,是一种探测性地获得隐蔽的而不明显信息的方法。 △OLAP为用户提供多个数据视图来对数据仓库的数据进行分析,可以从任意角度观察空间数据或对其切片和切块,但不依赖于数据,也不创造出新的知识,仅提供导出数据的答案。它对数据挖掘过程很有用,可作为数据挖掘的一部分,但不能代替数据挖掘。 1.3 数据挖掘的起源 从统计学、人工智能、机器学习、模式识别、数据库系统等学科吸取了许多营养和知识. 1.4 数据挖掘的两类根本任务: 描述(Description Methods ): 刻画数据库中数据的一般特性。 发现能够描述数据的人们可以理解或解释的模式。 在数据集上生成新的、非同寻常的信息。 预测( Prediction Methods ): 在当前数据上进行推断,以进行预测。 用一些变量去预测其它变量的未知值或将来值。 生成已知数据集的系统模型。 数据挖掘的基本任务: 1.分类 Classification [预测]: 2.聚类 Clustering [描述]: 3.关联分析 Association Rule Discovery [描述] : 4.序列模式 Sequential Pattern Discovery [描述] : 5.回归 Regression [预测]: 6.异常/偏差检测 Deviation Detection [预测]: 1.4.1 分类: 给定一组记录(训练集合) 每一个记录包含多个属性,其中一个属性为类属性 发现一个类属性模型,它以其它属性值为函数 目标:尽可能准确地给新来的没有类标记的记录指派一个适当的类值 通常,给定的数据库被分为训练集和测试集两部分,训练集用来学习模型,测试集用来验证模型。 Classification Process (1): Model Construction Classification Process (2): Use Model in Prediction 应用1:目标营销 目标:通过提前锁定一组很可能购买新商品的客户群体,减少邮寄宣传品的费用。 方法: 使用以前介绍过的类似产品的数据; 我们清楚历史数据中哪些用户决定买,哪些用户不决定买;{买或不买}形成类属性; 收集大量消费者的各种各样的人口统计学的、生活方式的以及与公司交互的相关信息。如就职的企业类型、居住地、收入等。 使用这些信息作为输入来学习分类器的模型。 应用2:欺骗检测 目标:在信用卡事务处理过程中预知欺诈事件的发生。 方法: 使用信用卡事务处理记录,并把帐号持有者的一些信息作为属性. 把过去的事务标记为欺诈事务或正常事务,并把其看作类属性. 从事务库中学习出分类模型. 通过留心某个用户的信用卡事务,使用该模型探测是否存在欺诈. 应用3:客户流失 目标:
原创力文档


文档评论(0)