- 1、本文档共79页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据管理与数据挖掘概论
* 迭代过程 * CRISP-DM 6. 方案实施(Deployment) 发布挖掘结果(获得知识的)评估 决定实施计划 Crisp-DM 1.0 CRISP-DM 2.0 SIG WORKSHOP ANNOUNCED–CHICAGO, SEPTEMBER 26, 2006 * CRISP-DM各阶段占用时间和重要性 1% 10% 方案实施 5% 10-20% 建立模型和 模型评估 15% 50% 数据准备 5% 10-20% 数据理解 70% 10% 问题理解 占项目成功的重要性 花费时间 * 数据挖掘需要的人员 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。 数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。 数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。 * A theory of organizational knowledge creation, which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization, Externalization, Combination, and Internalization. Shared mental models or technical skills 1 Metaphors, analogies, concepts, hypotheses, or models 2 Linking explicit knowledge 3 Learning by doing 4 I. Nonaka and H. Takeuchi The Knowledge-Creating Company. How Japanese Companies Create the Dynamics of Innovation. Oxford University Press, 1995. Group explicit knowledge Individual explicit knowledge Individual tacit knowledge Group tacit knowledge Combination Internalization Socialization Externalization Key Factor in Establishing the School Prof. Nonaka * 应 用 市场分析、预测和管理 行销策略, 客户关系管理(CRM), 购货篮分析, 市场分割 风险分析、预测和管理 风险预警, 客户挽留, 改进的保险业, 质量控制, 竞争分析 欺诈检测和管理 证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断 信用评估 银行信贷评估,信用卡评估 * 应 用 宏观经济(指标之间关联,经济指标的预测,预警) 电信(客户细分,客户流失,客户挽留) 金融(信用评估,洗钱,欺诈…) 情报(文本挖掘,新闻组, 电子邮件, 文档) Web 挖掘(信息过滤,个性化服务,异常行为,…) DNA 数据分析(一些引起疾病的DNA序列,…) 人力资源配置(如何有效进行人力分配) 医疗诊断 中药配伍规律 零售业 科学(天气预报,灾难预测… * KDnuggets对数据挖掘各种情况进行了调查 从应用领域 使用工具 使用方法 数据挖掘组的地位 数据库的大小(10G以上,100-1000G) 数据格式(文本和工具特定格式居多) * 银行 17% 生物/基因 8% E商务/Web 15% 欺诈检测 8% 保险 6% 投资/股票 4% 药品 5% 零售业 6% 科学数据 8% 电信 11% 其他 11% 应用领域情况(2001) * 应用领域情况 2 0 0 6 * 应用领域情况(2008)[170 voters] * 数据挖掘软件 (May 2008) [347 voters] * 数据挖掘软件 (May 2008) 2012年 R以30.7%的得票率荣登榜首 * * 从技术看数据挖掘使用技术情况 [784 votes total] (Feb 2005) Decision Trees/Rules (107)决策树 ??????????????????????????????? 14% Clustering (101
您可能关注的文档
- 数据挖掘导论英文chap1_intro.ppt
- 数据挖掘导论英文chap4_basic_classification.ppt
- 数据提供和指标说明.doc
- 数据操作,DML,Data Management Language详解.docx
- 数据支撑、高效服务.ppt
- 数据收集培训_CN_v1.2.ppt
- 数据收集与整理多种方法.ppt
- 数据校验手册.docx
- 数据核查变更维护工作操作流程.ppt
- 数据流程图+IPO结构化语言.pptx
- 医疗行业研究:康方生物重磅数据公布,三季报重点关注药品板块和个股反转.pdf
- 电池行业:海外电池装车量增速放缓,但中国电池企业海外市场份额提升.pdf
- 人工智能行业专题:2021-2024年全球AI相关股权投资金额对比.pdf
- 商贸零售行业专题研究:国际四大美妆集团财报综述-中国区销售表现普遍承压,积极采取措施调整应对.pdf
- OpenAI发布o1模型,推理市场蓝海扬帆最新完整版本.pdf
- 生物医药行业:安罗替尼肝癌、肾癌一线治疗数据优效,具备爆发潜力.pdf
- 快递行业:上半年成本优化带动行业盈利改善,京东物流、申通、极兔提升明显.pdf
- 轻工制造行业专题研究:居家适老化改造进程复盘与展望最新完整版本.pdf
- 整车研究专题(六):竞争格局:两端价格带格局清晰,中间优胜劣汰加速.pdf
- 食品饮料行业定期报告:中秋白酒持续分化,板块静待需求改善.pdf
文档评论(0)