第四章华农符少管理信息系统课件.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四章华农符少管理信息系统课件

思考 为什么需要建设数据仓库,数据库不足够吗? 数据仓库是数据库吗? 数据仓库有何好处? 问题 凡客中的客户行为分析是采用什么工具来进行处理数据而得的结果? 唯品会呢? 新浪呢? 第二节 数据仓库 问题 什么是数据仓库? 数据仓库有何特点? 构建数据仓库有何好处? 是不是所有企业都需要建立数据仓库? 应用服务器有软件程序,介于浏览器端的计算机与公司后端商业数据库之间,可以处理所有的应用操作,提供与组织后端系统或数据库的链接。 处理这些操作的软件可能是定制软件或通用网关接口脚本。 关联分析 人们购买爆米花后,有65%的人同时也会购买可乐。 对象分类 如信用卡或电话公司为例,担心失去固定客户。通过分类,可以总结退卡或退出电话网客户的共同特征,然后预测哪些人有这样的迹象并找出对策挽留这些客户 聚类分析 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户特征 存在问题 数据存放在不同的数据库中,查询和分析不容易 上下数据不一致 解决方案 将不同来源的数据整合到一个综合的数据库中,存储和整理数据,方便查询和分析。 建立数据标准 价值 提升决策 降低成本 作业 搜索“聚龙米”网络营销推广状况 设计罗定市稻香园发展有限公司“聚龙米”网络可追溯查询系统方案 数据挖掘的定义 ?技术上的定义及含义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。 ?商业角度的定义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 ?数据挖掘与传统分析方法的区别 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识 数据挖掘的功能 自动预测趋势和行为 关联分析 对象分类 聚类分析 概念描述 偏差检测 数据挖掘功能—预测 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 数据挖掘功能—关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。 若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联可分为简单关联、时序关联、因果关联。 关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。 时序关联是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。 数据挖掘功能—分类 按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。 数据挖掘功能—聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。聚类技术在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。 数据挖掘功能—概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 数据挖掘功能—偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。 偏差检测对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。 数挖掘技术 人工神经网络 决策树 覆盖正例排斥反例方法 粗集(Rough Set)方法 遗传算法 公式发现 统计分析方法 模糊论方法 可视化技术 决策树图 聚类分析 聚类如同通常所说的“物以类聚”,是把一组个体按照相似性归成若干类别。 它的目

文档评论(0)

quechui388620 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档