- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[理学]数据挖掘与应用一
数据挖掘与应用Data Mining and Its Application张俊妮北京大学出版社 什么是数据挖掘 什么是数据挖掘 数据挖掘的应用 案例一:银行业 违约事件的预测可能产生的两类错误 信用风险分析的范式变革 数据仓库和信用风险建模 数据收集 数据清理 建立丰富的信用风险模型 验证模型的预测是否准确 模型更新 信用卡数据分析 营销和数据分析 营销和数据分析 营销和数据分析 案例二:海关 数据来源 【应用一】宏观:总体税收的预测 【应用二】中观:直属海关层面的分析 不同海关税率结构的差异 使用聚类分析 【应用三】微观:进出口货物的异常波动 案例三:意大利信息系统联盟 案例三:意大利信息系统联盟 案例三:意大利信息系统联盟 案例四:零售业 案例四:零售业 总结:数据挖据带来的收益 数据挖掘方法的分类 数据挖掘方法论(一) 数据挖掘方法论(一) 数据挖掘方法论(一) 数据挖掘方法论(一) 数据挖掘方法论(二) 数据挖掘方法论(二) 数据挖掘方法论(二) 数据挖掘技术可大大加强一个组织的核心竞争力:数据挖掘技术有助于满足客户需求、降低风险、最大化收益、简化管理流程、优化资源配置等等。数据挖掘技术常常能够带来10倍以上的直接投资回报。数据挖掘还往往能够带来很多无法直接度量的好处,如信息流动的通畅、管理监督能力的提升等。 ①无监督数据挖掘:对各个变量不区别对待,而是考察它们之间的关系,这类方法有: A、描述和可视化; B、关联规则分析; C、聚类分析、主成分分析等。 ②有监督数据挖掘:建立根据一些变量来预测另一些变量,前者被称为自变量,后者被称为因变量。有监督数据挖掘能从数据中获取深度细致的信息,应用非常广泛。 数据挖掘方法论:CRISP-DM(CRoss-Industry Standard Process for Data Mining,数据挖掘的跨行业标准过程),由SPSS等三家公司提出。 ①业务理解 从业务的角度理解项目实施的目的和要求,将这种理解转化为一个数据挖掘问题,并设计能达成目标的初步方案。 ②数据理解 收集原始数据,熟悉它们,并考察数据的质量问题,对数据形成初步的洞见。 ③数据准备 从原始数据中构造用于建模的最终数据集。该构造过程包括观测选择、变量选择、数据转换和清理等等。 ④建模 选择并应用多种建模方法,并优化模型。 ⑤模型评估 全面评估模型,回顾建立模型的各个步骤,确保模型与业务目标一致,并决定如何使用模型的结果。 ⑥模型发布 以客户友好的方式组织并呈现从数据挖掘中所获取的知识。这一阶段经常会在组织的决策过程中灵活地应用模型。例如,在建立了预测贷款企业违约率的模型后,模型发布形式可以如下:信贷员在前台输入一个贷款企业的各种信息,后台使用模型计算违约率后直接反馈给前台,帮助信贷员决定是否给该企业货款。 前五个阶段都不是线性或一蹴而就的。 ①在数据理解阶段可能发现数据能支持的业务目标不同于业务理解阶段所设定的目标,所以需要重新回到业务理解阶段; ②数据准备阶段和建模阶段互为反馈,需要反复改进建模数据集的构造方法和建模的方法; ③模型评估阶段可能发现模型的结果与预先设定的业务目标不符,需要重新进行业务理解。 ④图中带箭头的外圈表示所有这些阶段都是循环往复、持续改进的。 * 第一讲 数据挖掘概述 决策 与 运营 活动 经验 数据 新知识 数据挖掘是一个持续改进企业经营管理活动的过程: ①把组织在决策与运营活动中所积累的经验,转换为可度量的数据。 ②对其进行分析后,提炼出对运营管理有指导意义的新知识。 ③进一步改进决策、改善运营活动。 定义:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程。(Berry and Linoff, 2000) ①以客户为导向的应用: 市场篮分析、获取客户、客户细分、客户保持、交叉销售、向上销售、客户终身价值分析等。 ②以运营为导向的应用: 盈利分析、定价、欺诈发现、风险评估、雇员流失分析、生产效率分析等。 【应用一】测度企业货款信用风险需要考虑2个方面:①企业货款违约的概率;②一旦企业违约所带来的损失。 如果银行能够很好地预测信用风险,那么它就可以:①基于自身的风险偏好选择客户群体;②为不同的客户提供不同的货款产品或不同的货款利率。 最大程度地减少这两类错误,将会为银行带来可观的收益。 正确 产生大量的信用损失(贷款的本金、利息等) 实际会违约
文档评论(0)