- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术.pptx
第11讲 数据挖掘概述Chapter 11 Introduction to Data Mining;内容提纲;数据挖掘介绍;数据挖掘的由来 ;背景;随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”
快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。
由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。;网络之后的下一个技术热点;数据爆炸但知识贫乏 ;从商业数据到商业信息的进化 ;KDD的出现;数据挖掘;KDD已经成为人工智能研究热点;数据挖掘的应用;英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。
;GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。;;银行;数据挖掘在银行领域的应用;Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。
美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。;汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。
;基本概念区分;数据挖掘和知识发现;数据挖掘和数据仓库;数据源
; 数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那么最好还是建立一个单独的数据挖掘库。
当然为了数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。;数据挖掘与信息处理;数据挖掘与联机分析;数据挖掘与人工智能、统计学;数据挖掘与统计学;数据挖掘基本内容;数据挖掘的定义;技术上的定义;商业角度的定义;数据挖掘的定义(续);数据挖掘的数据来源;高级数据库系统和高级数据库应用;数据挖掘过程;(1)定义商业问题
要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。
(2)建立数据挖掘库
数据准备工作大概要花去整个数据挖掘项目的50%-90%的时间和精力。一般来说,直接在公司的数据仓库上进行数据挖掘是不合适的,最好建立一个独立的数据集。
建立数据挖掘库可分成如下几个部分:
a) 数据收集
b) 数据描述
c) 选择 ; d) 数据质量评估和数据清理
e) 合并与整合
f) 构建元数据
g) 加载数据挖掘库
h) 维护数据挖掘库
(3)分析数据
数据分析的目的:是找到对预测输出影响最大的数据字段,并决定是否需要定义导出字段。
(4)准备数据
这是建立模型之前的最后一步数据准备工作。可分成4个部分:
a)选择变量; b)选择记录; c)创建新变量; d) 转换变量。;(5)建立模型
对建立模型来说要记住的最重要的事是它是一个反复的过程。需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。
为了保证得到的模型具有较好的精确度和健壮性,需要一个定义完善的“训练—验证”协议。有时也称此协议为带指导的学习。验证方法主要分为:
a)简单验证法
b)交叉验证法:首先把原始数据随机平分成两份,然后用一部分做训练集另一部分做测试集计算错误率,做完之后把两部分数据交换再计算一次,得到另一个错误率,最后再用所有的数据建立一个模型,把上面得到的两个错误率进行平均作为最后用所有数据建立的模型的错误率。
c)自举法:是另一种评估模型错误率的技术。在数据量很小时尤其适用。与交叉验证一样模型是用所有的数据建立。;(6)评价和解释
a) 模型验证。模型建立好之后,必须评价其结果、解释其价值。从测试集中得到的准确率只对用于建立模型的数据有意义。在实际应用中,随着应用数据的不同,模型的准确率肯定会变化。更重要的是,准确度自身并不一定是选择最好模型的正确评价方法。需要进一步了解错误的类型和由此带来的相关费用的多少。
b)外部验证。无论我们用模拟的方法计算出来的模型的准确率有多高,都不能保
您可能关注的文档
最近下载
- NB-T47008-2010承压设备用碳素钢和合金钢锻件.pdf VIP
- 关于XX学校基孔肯雅热防控工作方案(最新版).pdf
- 风电光伏安装施工培训课件课件.pptx VIP
- 富士FFA电梯控制系统使用说明书NW3P电气原理图纸.pdf
- DB50T 867.6-2019 安全生产技术规范 第6部分:黑色金属冶炼企业 .pdf VIP
- 核心素养视域下高中思政课教学目标设计探析.pptx VIP
- 英语课件怎么做.pptx VIP
- 景区标识标牌标识标牌安装方案.docx
- 《钢结构通用规范+GB+55006-2021》详细解读.pdf
- 2024年度省安委会成员单位安全生产工作考核要点和评分标准(2).docx
原创力文档


文档评论(0)