证 券交易所数据挖掘培训_II.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
上海证券交易所数据挖掘培训 II 概览 议程 业务系统和数据仓库之间的关系 数据挖掘的方法和应用 数据挖掘的具体过程 数据挖掘项目成功的要素 数据挖掘举例 业务系统和数据仓库 业务系统的主要功能是日常运作 数据仓库的目的是决策支持 业务系统是数据仓库的数据源 数据仓库系统不是也不可能替代业务系统 业务人员和技术人员的角色与职责 数据仓库是为了最终用户的使用 而由最终用户和技术人员共同创建的 数据仓库不是一个技术项目 数据仓库必须由技术人员和最终用户共同缔造 技术人员和最终用户必须共同合作才能保证项目的成功 最终用户的职责 业务目的确定 (主导) 用户需求 (主导) 设计 逻辑模型 星形模型 实施 测试 培训 技术人员职责 业务目的确定 (主导) 用户需求 (主导) 设计 逻辑模型 物理模型 星形模型 实施 设计 编程 测试 培训 数据挖掘的方法及典型应用 数据挖掘功能、算法及典型应用 数据挖掘流程 业务目标确定 对于所有的数据挖掘项目,这并不是自动获得的。 许多数据挖掘项目的目标通常是模糊和不清晰的。对于分析人员和决策制定者来说,在任何数据挖掘项目的开始阶段,对业务问题、业务目标以及数据挖掘目的有一个清晰而描述是至关重要的。 涉及人员:高级管理人员,业务分析员和项目经理 活动:与业务用户的会议和访谈 数据源识别 给定一个业务目标,下一步就是找到可以回答和解决这一业务问题的数据。所需要的数据可以来自操作型数据或者是公司内的数据库/数据仓库。 涉及人员:业务分析员,数据挖掘分析员和IT人员 活动:与IT部门的会议和访谈 数据收集 收集需要的数据有几种方式,这取决于数据需求和经济因素的综合考量。 在公司内部数据中提取 向数据公司购买 进行市场调研 从公告或媒体中获取 涉及人员:数据挖掘分析员和IT人员 活动:确定及收集可能用于挖掘的数据 数据选择 从数据源选择将使用的数据类型 数据量大,采集时间长 = 数据抽样技术 平衡减少数据量和采样必须具有较全面的代表性 根据统计方法来计算样本的大小 了解数据的定义 数据的质量和可靠性 数据的准确性 数据的一致性 数据的完整性 数据的有效性 数据的代表性 数据的非冗余性 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员 活动:确定及选择可能用于挖掘的数据 业务目标确定数据质量审核 对选择的数据进行审核 审核方法 离散数据频率分析 定量数据的分位数分析 图形分析包括柱状图、饼图、散点图, boxplots, 和时间曲线。 涉及人员:数据挖掘分析员、IT人员,有时还有业务分析员 活动:检测抽取数据的质量 数据转换 在选择并检验了需要的数据(表、变量)之后,多数情况下需要进行数据转换。特定的转换取决于数据挖掘类型和数据挖掘工具,比如计算机软件和数据挖掘所使用的技术。 典型的转换 转换类别变量成数字变量 数学转换,如对数转换、次方转换 数字定义新变量 涉及人员:数据挖掘分析员 活动:抽取信息的转换 数据挖掘 数据挖掘项目的核心部分 尝试多种不同的数据挖掘技术以发现最优 数据挖掘方法 预测模型 分类 值预测 分割 链接分析 时间序列预测 涉及人员:数据挖掘分析员 活动:挖掘数据 应用建议 把分析结果转化为业务利润。 基于数据挖掘的知识发现,对在业务中运用数据挖掘结果,提出合理化建议 涉及人员:数据挖掘分析员和业务分析员 活动:分析挖掘结果并考虑如何在业务环境中应用 结果应用 数据挖掘结果应用途径 将挖掘获得的知识直接发送给用户 将结果加入ODS,DDS甚至源系统以便利用 。 涉及人员:IT人员 活动:基于运行系统的建议,IT人员实施应用数据挖掘的结果 好的数据源 数据要准确 数据要丰富 数据要经常更新 好的方案 方案必须紧密根据业务目的和数据挖掘目的来设计 对数据挖掘技术要有全面而深刻的了解,从而保证方案制订有较强的灵活性和先进性 对其它非数据挖掘方案来解决相同的课题也要有较强的认识,以备在制订数据挖掘方案时做参考。克服缺陷,发扬优点。 好的算法 好的算法能提高模型的准确性 好的算法能为模型的调整提供更好的灵活性 好的系统支持 好的系统能够为支持某些算法的运行提供可能 内存和硬盘空间不足会导致决策树模型不能运行 好的系统能提高数据挖掘的效率 好的系统增快数据挖掘的速度,从而减少等待时间 好的团队合作 数据挖掘是跨多部门(数据挖掘,IT,业务部门) 共同合作的项目,因此需要各个部门的精诚合作 业务部门提供详细的业务需求,实时的业务知识指导,和专业化的数据挖掘结果审核 IT部门提供数据源说明,数据提取和转换的支持,数据挖掘结果应用的实施 数据挖掘部门提供数据整理的建议,制定优秀的数据挖掘方案,灵活应用数据挖掘的算法,解释数据挖掘的结果,对结果的应用提出合理化的

文档评论(0)

nuvem + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档