- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.DW 概述
数据挖掘;1 背景; 现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。
数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能(Business Intelligence, BI)等热点领域的核心技术之一。 ; 数据挖掘;2 数据挖掘定义;商业角度的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。
简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。 ;数据挖掘的演化;数据挖掘与其他科学的关系;数据挖掘与传统数据分析方法区别; 在缺乏强有力的数据分析工具而不能分析这些资源的情况下,历史数据库也就变成了“数据坟墓”-里面的数据几乎不再被访问。
也就是说,极有价值的信息被“淹没”在海量数据堆中,领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法,使之能够智能地处理海量数据,即演化为数据挖掘。 ;数据挖掘的发展趋势;数据挖掘的本质;实施数据挖掘的目的; 数据挖掘;3 基本概念;知识
人们实践经验的结晶且为新的实践所证实的;是关于事物运动的状态和状态变化的规律;是对信息加工提炼所获得的抽象化产物。
知识的形式可能是模式、关联、变化、异常以及其他有意义的结构。;模式
对于集合F中的数据,我们可以用语言L来描述其中数据的特性,得出一个表达式E,E所描述的数据是集合F的一个子集FE。只有当表达式E比列举所有FE中元素的描述方法更为简单时,我们才可称之为模式。
如:“如果成绩在81-90之间,则成绩优良”可称为一个模式,而“如果成绩为81、82、83、84、85、86、87、88、89或90,则成绩优良”则不能称之为一个模式。 ; 数据挖掘;4 主要功能; 例2:对比移动电话费月消费额超出1000元的客户群与 移动电话费月消费额低于100元的客户群。
利用数据挖掘可作出如下描述:移动电话月消费额超出1000元的客户80%以上年龄在35-50岁之间,且月收入5000元以上;而移动电话月消费额低于100元的客户60%以上要么年龄过大要么年龄过小,且月收入2000元以下。;2. 关联分析(Association Analysis)
从一个项目集中发现关联规则,该规则显示了给定数据集中经常一起出现的属性-值条件元组。
例如:关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。 ;3. 分类与估值(Classification and Estimation)
分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式:分类规(IFTHEN),决策树或者数学公式,乃至神经网络。
估值与分类类似,只不过它要预测的不是类别,而是一个连续的数值。 ;4. 聚类分析(Clustering Analysis)
聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。
好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。 ;5. 时间序列分析(Time-Series Analysis)
时间序列分析即预测(Prediction),是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性,包括搜索相似序列或者子序列,挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。 ;6. 其它功能
包括:偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等。
随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。 ; 数据挖掘;5 数据挖掘模型;确定业务目标:分析项目的背景,从业务视
您可能关注的文档
- .9土地的誓言课件.ppt
- .9、土地的誓言课件.ppt
- .9月20日企业管理计算题课件.ppt
- .9祁黄羊课件.ppt
- .access数据访问页.ppt
- .Acesse解析.ppt
- .AD域服务器详细搭建.ppt
- .ActionScript3.0(Flash编程)电子教案.ppt
- .Altium Designer 原理图元件及PCB封装的设计.ppt
- .app市场和前景分析.pptx
- 人工智能视角下区域教育评价改革利益相关者协调研究——以均衡发展为目标的应用实践教学研究课题报告.docx
- 《金融科技在消费金融领域的应用:基于金融科技伦理的监管策略》教学研究课题报告.docx
- 智能法律服务2025年法律科技人才培养需求分析报告.docx
- 《智能安防视频监控中的行为分析技术在智能工厂安全监控中的应用》教学研究课题报告.docx
- 智能电网背景下2025年数据中心绿色认证体系构建与优化.docx
- 智能电网背景下2025年储能技术产业政策与市场分析报告.docx
- 智能网联汽车2025年智能网联汽车车联网信息安全与监管报告.docx
- 智能监管2025剧本杀行业,内容技术革新分析报告.docx
- 智能穿戴设备用户付费意愿与市场前景研究报告.docx
- 初中化学家庭实验课程资源开发:以实验探究能力培养为核心教学研究课题报告.docx
文档评论(0)