- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 2 章 从商务角度看数据挖掘 程春明 chengcm@ 2010.3 2.1 引言 商业数据是如何进化为有用商业信息的? 信息技术发展一个新的重要趋势是识别信息系统中有意义的数据。 这种知识可能是一个商业机构获得竞争优势的关键。 DM的价值在于主动搜寻产业发展趋势,并将这种理解提供给拥有大量信息的机构。 商务机构的数据挖掘目标主要是改善组织机构与它们的顾客之间的沟通质量。 数据挖掘在人的控制下,使用算法从数据中提取模式。可以为组织机构提供一种优化商务数据处理的方法 企业(组织)数据更加全面,生产、销售、质量 数据挖掘公司关注各个不同的行业 对大型、超大型、复杂的数据进行数据挖掘 DM可以用于商务应用,依靠三种成熟技术所支持 大量数收集 功能强大的多处理器计算机 数据挖掘算法 数据挖掘演变 数据挖掘产业的一个持续趋势是企业资源计划(ERP)零售商和应用服务提供者(ASP)的出现。 什么是ERP? 2.2 数据挖掘工具及解决方案 数据挖掘可以沿三条谱线追溯 经典统计学(基础) 回归分析、正态分布、标准差、标准方差、聚类分析和置信区间等概念,主要用于研究数据与数据之间的关系,这些都是最基本的构件块,可以用来构建更高级的统计分析。 人工智能(Artificial Intelligence ,AI) 机器学习(统计学与AI的结合) DM基本上是将机器学习用于商务和科学应用,最好将DM看作统计学、AI、机器学习过去和现在发展的融合。 2.3 数据挖掘系统的演变 典型数据挖掘系统的体系结构 数据挖掘系统的演变 第一代:数据挖掘系统(data mining system), 20世纪80年代。 主要关注单一任务的、研究驱动的工具组成 操作复杂 结果表示和可视化效果不理想 第二代:数据挖掘系统套装(suite),1995年。 关注数据清理和预处理 集成了数据处理及可视化表示等功能 Clementine、 Mineset、 Intelligent Miner 第三代:基于应用和解决方案的从生产到销售全过程的数据挖掘, 20世纪90年代。 解决具体的商务问题,筛选存储在大型数据库中的信息,发现隐藏的模式。通过决策支持系统集成数据挖掘系统,能对特定的问题进行决策,忽略数据挖掘工具的细节。 面向生产到销售的全过程 电子商务 2.4 Crisp-DM模型 跨行业数据挖掘标准流程(Cross-Industry Standard Process for Data Mining,Crisp-DM) 数据挖掘方法论最初由SPSS、NCR和DaimlerChrysler三个公司在1996年提出。后来得到欧共体研究基金的支助。到2000年8月,Crisp-DM 1.0版发布。Crisp-DM不是一种描述特定数据挖掘的技术,而是描述数据挖掘项目生命周期的流程。 Crisp-DM参考模型的阶段 Crisp-DM数据挖掘方法论能通过分层流程模型来描述,包括一组描述4个抽象层次的任务: 阶段:流程的最顶层是阶段。例如,商业理解是数据挖掘过程的第一个阶段。 一般任务:一般任务是每个阶段下的任务的一般性描述。这一层还比较抽象,例如,数据清理是一般任务。 特殊任务:特殊任务是指一般任务在某一特定情况下的描述,例如,数据清理任务有特殊任务,比如清理数值和清理分类值。 流程实例:流程实例是最低层次的任务,包括行动记录、决策和实际数据挖掘的结果。 CRISP-DM参考模型的一般任务和输出 2.5 数据挖掘支撑技术概述 DM技术 2.5.1 数据挖掘:验证与发现 查询提取、验证/分析工具 决策支持系统、主管信息系统、一些查询工具 访问数据库记录 获取已有模式—验证方法(verification method) 过程:假设?验证 DM是发现工具。 发现趋势,产生结果集 少量用户指导 大量数据集 2.5.2 决策支持系统 产生于20世纪80年代中期 目标:为组织机构的主管综合数据,使得他们能够基于数据分析,为决策提供支持。 逐步被联机分析处理(OLAP) 取代 主管信息服务(EIS)、地理信息服务(GIS)、OLAP、知识发现系统、专家系统 2.5.3 桌面DSS Microsoft Excel、Lotus 1-2-3、Expert-Choice 2.5.4 数据仓库与OLAP 数据仓库是什么?它与数据库系统有什么不同? 数据立方体 数据立方体上的OLAP操作 数据仓库-数据挖掘的有效平台 数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤 数据仓库提供OLAP工具,可用于不同粒度的数据分析 很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现 分类 预测 关联 聚集 什么是数据仓库? 数据仓库的定义很多,但却很难有一种严格的定义 它
您可能关注的文档
最近下载
- 菲律宾结构设计规范NSCP chapter 1.pdf VIP
- 課程设计---四工位机床.doc VIP
- YAESU 八重洲 FT-8900R 四频段FM车载台 说明书.pdf VIP
- 2017年四川省成都市中考数学试卷及答案解析.pdf VIP
- HG_T 4196-2011 化学试剂 十水合碳酸钠(碳酸钠).docx
- 2024-2025学年小学科学四年级上册湘科版(2024)教学设计合集.docx
- 九年级美术上册第1课齐白石徐悲鸿备课岭南版.ppt VIP
- (高清版)DB32∕T 1702-2010 电力用户变电所运行规程 .pdf VIP
- 服装造型点线面.pptx VIP
- 十一自然资源配置.pptx VIP
文档评论(0)