数据库系统教程 教学课件 作者 何玉洁 李宝安 第16章 数据库仓库与数据挖掘.pptVIP

数据库系统教程 教学课件 作者 何玉洁 李宝安 第16章 数据库仓库与数据挖掘.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
银行业务 检测欺诈性信用卡使用的模型; 识别忠实顾客; 预测可能改变他们的信用卡从属关系的客户; 确定客户群体的信用卡消费。 * * 医疗保健 发现放射线图象的模型; 分析药物的副作用; 描述患者行为特征,预测外科手术观察; 标识对不同疾病的成功药物疗法。 * * 保险 索赔分析; 预测哪些顾客会购买新的保险产品。 * * 16.3.6 数据挖掘的前景 网站的数据挖掘 电子商务网站数据挖掘 生物信息或基因的数据挖掘 文本的数据挖掘 * * 网站的数据挖掘 随着Web技术的发展,各类电子商务网站风起云涌,建立一个电子商务网站并不困难,困难的是如何让电子商务网站有效益。 要想有效益就必须吸引客户,增加能带来效益的客户的忠诚度。 若想在竞争中生存进而获胜,就要比竞争对手更了解客户。 * * 电子商务网站数据挖掘 在对网站进行数据挖掘时,所需要的数据主要来自于两个部分:客户的背景信息,此部分信息主要来自于客户的登记表;浏览者的点击流,此部分数据主要用于考察客户的行为表现。 有时,客户不肯把自己的信息填写在登记表上,这就给数据分析和数据挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。 * * 生物信息或基因数据挖掘 在商业上很难讲有多大的价值,但对于人类却受益非浅。 例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。 * * 文本的数据挖掘 例子:在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度、客户的需求以及客户之间的相互关系等信息。 文本数据挖掘和一般的数据挖掘相差很大 文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。 * * * * 开场白: * 上卷操作示意图 城市上升到地区 * * 下钻操作示意图 季度下降到月 * * 切片操作示意图 时间=1季度 * * 切块操作示意图 (地区=“江苏” or “浙江”) And (时间=“第一季度” or “第二季度”) And (商品类型=“家电” or “食品”) * * 转轴操作示意图 转轴 * * 16.3 数据挖掘 数据挖掘(Data Mining)可定义为从大型数据库中抽取有效的、事先未知的、易于理解的、可操作的、对商业决策有用的信息的过程, 即数据挖掘能帮助最终用户从大型数据库中提取有用的商业信息。 * * 16.3.1 数据挖掘过程 * * 1.数据准备 数据选择:搜索所有与业务对象有关的数据,并从中选出适用于数据挖掘应用的数据。 数据预处理:研究数据的质量,为进一步的数据分析作准备,并确定将要进行的挖掘操作的类型。 数据转换:将数据转换成一个分析模型,这个分析模型是针对数据挖掘算法建立的。建立一个真正适合数据挖掘算法的分析模型是数据挖掘成功的关键。 * * 2.数据挖掘 对得到的经过转换的数据进行挖掘, 除了选择合适的挖掘算法外,其余一切工作都能自动地完成。 * * 3.结果分析 解释并评估结果。 使用的分析方法一般视数据挖掘操作而定,通常会用到可视化技术。 * * 4.知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。 * * 16.3.2 数据挖掘知识发现 随着DMKD(Data Mining and Knowledge Discovery,数据挖掘和知识发现)研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱: 数据库 人工智能 数理统计 * * 数据挖掘发现的知识类型 广义知识 关联知识 分类知识 预测型知识 偏差型知识 * * 广义知识 指类别特征的概括性描述知识。 根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。 * * 广义知识的发现方法 一类方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些聚集数据存储在多维数据库中。 面向属性的归约方法。这种方法以类SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。 * * 关联知识 是反映一个事件和其他事件之间依赖或关联的知识。 如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。 最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。 * * 关联规则 关联规则的发现可分为两步。 迭代识别所有的频繁项目集,要求频繁项目集的支持率不低于用户设定的最

您可能关注的文档

文档评论(0)

时间加速器 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档