第5章--数据挖掘-1.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章--数据挖掘-1

第5章 数据挖掘 主要内容 5.1 知识发现与数据挖掘概念 5.2 数据挖掘方法和技术 5.3 数据挖掘实例 5.1 知识发现与数据挖掘概念 5.1.1 数据挖掘和知识发现的定义 5.1.2 数据挖掘对象 5.1.3 数据挖掘任务 5.1.1知识发现和数据挖掘的定义 知识发现(Knowledge Discovery in Database,KDD)定义: 从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程。 知识发现过程的步骤为: 数据选择(从数据库中检索与分析任务相关的数据) 数据清理(消除噪声或不一致数据) 数据集成(多种数据源可以组合在一起) 数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作) 数据挖掘(基本步骤,使用智能方法提取数据模式) 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式) 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 数据挖掘的定义 数据挖掘(Data Mining)定义:数据挖掘是从存放在数据库,数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。 关联(如尿布和啤酒的销售关系) 序列(如将事件联系在一起:结婚和买家具) 分类(如识别诸如最有可能离开的客户属性等的模式) 预测(如根据过去的模式预测客户的购买习惯) 数据挖掘被认为是KDD过程中的一个特定步骤, 它用专门算法从数据中抽取模式。 数据挖掘应用举例 直接销售 确定应该将哪个潜在客户写入邮递表 市场分割 确定购买相同产品的客户共同特征 客户变动 预测哪一类客户最有可能离开你的公司到你的竞争者那去 市场购物篮分析 识别什么样的产品最有可能一起购买 保险要求分析 发现欺诈交易的模式 将当前交易和这些模式进行对比?? 案例:产品整合 Yahoo!电子邮箱上数据挖掘的可视结果 通过对用户使用行为的意外模式分析,发现在每次会话中,根据这个发现,Yahoo!电子人们阅读邮件和阅读新闻的行为之间存在很强的相关关系邮箱产品小组首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。 对于象电子邮箱这种产品,最头痛的问题就是如何获取新的“轻量级用户”,并推动他们的用量,使之变成“重量级用户”。如果做到了,那么流失率就会显著下降。实际上,在Yahoo!的试验中,最弱的一组流失率下降了40%。于是Yahoo!立刻开发并完善了新闻模块,并嵌入Yahoo!电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。 营销决策 某银行通过对业务数据进行挖掘后,发现一个银行帐户持有者突然要求申请双人联合帐户时,并且确认该消费者是第一次申请联合帐户。 数据挖掘(DM)和OLAP的关系 OLAP分析是用户建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。 数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。数据挖掘在本质上是一个归纳的过程。 数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,验证一下的行动的影响,那么OLAP工具能回答这些问题。 知识发现的早期阶段,OLAP工具有利于探索数据,重要的变量,发现异常数据和互相影响的变量,加快知识发现的过程。 5.1.2 数据挖掘对象 关系数据库和数据仓库 文本 图像与视频数据 Web数据 1. 关系数据库 用SQL可以做什么? –上个季度卖出了什么商品? –给我列出上月每个部门的总销售量 –哪个销售员卖出的商品最多 Data Mining又能做什么? –预测新顾客的信誉风险 –检查商品销售变差的原因 2.文本数据库 通常是长句和段落,如作者信息、错误报告等 大部分高度非结构化(某些WWW网页) 某些半结构化(email信息、html/xml网页) data mining作用 –对象和类的特征描述 –关键词和内容关联性分析 –文本对象的聚类 3.多媒体数据库 存储图象、声音、视频数据 用于基于内容的图象检索、语音邮件系统、视频点播系统,WWW和语音识别系统等 要解决实时播放问题,图象、声音的连续性问题。 4.万维网WWW WWW和各种搜索引擎共同组合成一个广大的信息网。 Web mining---数据挖掘新的重要应用 web content mining web structure mining web usage mining 前景乐观,但困难较多 基于关键字的搜索系统 非结构化、缺乏统一的模式 4 空间数据库 存储与空间相关的信息,包括地图、卫星图象等。 data mining作用 –回答某一区域的居民分布情况

文档评论(0)

baoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档