数据管理与数据挖掘概论.ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据管理与数据挖掘概论

* 迭代过程 * CRISP-DM 6. 方案实施(Deployment) 发布挖掘结果(获得知识的)评估 决定实施计划 Crisp-DM 1.0 CRISP-DM 2.0 SIG WORKSHOP ANNOUNCED–CHICAGO, SEPTEMBER 26, 2006 * CRISP-DM各阶段占用时间和重要性 1% 10% 方案实施 5% 10-20% 建立模型和 模型评估 15% 50% 数据准备   5% 10-20% 数据理解   70% 10% 问题理解 占项目成功的重要性 花费时间 * 数据挖掘需要的人员 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 * A theory of organizational knowledge creation, which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental models or technical skills 1 Metaphors, analogies, concepts, hypotheses, or models 2 Linking explicit knowledge 3 Learning by doing 4 I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995. Group explicit knowledge Individual explicit knowledge Individual tacit knowledge Group tacit knowledge Combination Internalization Socialization Externalization Key Factor in Establishing the School Prof. Nonaka * 应 用 市场分析、预测和管理 行销策略, 客户关系管理(CRM), 购货篮分析, 市场分割 风险分析、预测和管理 风险预警, 客户挽留, 改进的保险业, 质量控制, 竞争分析 欺诈检测和管理 证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断 信用评估 银行信贷评估,信用卡评估 * 应 用 宏观经济(指标之间关联,经济指标的预测,预警) 电信(客户细分,客户流失,客户挽留) 金融(信用评估,洗钱,欺诈…) 情报(文本挖掘,新闻组, 电子邮件, 文档) Web 挖掘(信息过滤,个性化服务,异常行为,…) DNA 数据分析(一些引起疾病的DNA序列,…) 人力资源配置(如何有效进行人力分配) 医疗诊断 中药配伍规律 零售业 科学(天气预报,灾难预测… * KDnuggets 对数据挖掘各种情况进行了调查 从应用领域 使用工具 使用方法 数据挖掘组的地位 数据库的大小(10G以上,100-1000G) 数据格式(文本和工具特定格式居多) * 银行 17% 生物/基因 8% E商务/Web 15% 欺诈检测 8% 保险 6% 投资/股票 4% 药品 5% 零售业 6% 科学数据 8% 电信 11% 其他 11% 应用领域情况(2001) * 应用领域情况 2 0 0 6 * 应用领域情况(2008)[170 voters] * 数据挖掘软件 (May 2008) [347 voters] * 数据挖掘软件 (May 2008) 2012年 R以30.7%的得票率荣登榜首 * * 从技术看数据挖掘使用技术情况 [784 votes total] (Feb 2005) Decision Trees/Rules (107)决策树 ??????????????????????????????? 14% Clustering (101

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档