- 1、本文档共468页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘汇总;第1章. 引言;什么是数据挖掘?;为什么进行数据挖掘? — 潜在的应用;市场分析和管理 (1);市场分析和管理(2);风险分析和管理;欺诈检测与管理 (1);欺诈检测与管理(2);Other Applications;一些具体例子;一些具体例子;一些具体例子;具体过程;常见的模式识别系统 ;知识发现的步骤: ;有些人将数据挖掘视为数据库中知识发现的一个基本步骤,如图;典型数据挖掘系统的结构;1. 预处理
模式空间里,针对具体的研究对象,往往需要进行适当的预处理。
去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原
具体地说,预处理的功能包括:
清除或减少模式采集中的噪声及其它干扰,提高信噪比。
消除或减少数据图像的模糊及几何失真,提高清晰度。
转变模式的结构,以便后续处理(如非线性模式转为线性模式)。
预处理的方法:滤波、变换、编码、标准化等。(这些内容在“数字信号处理”、“数字图像处理”等课程中学过)
为了便于计算机处理,往往需要将模拟量转化为数字量,也就是进行A/D转换。在此过程中必须考虑2个问题,采样间隔与量化等级。
采样间隔(采样频率),表示单位时间内(秒),要求多少个采样值。
量化级,表示每个采样值要有多少个量化级,才能满足要求。
2. 特征提取/选择
特征提取/选择的必要性和原则。
一般的情况,人们对客观世界里的具体物体或事件进行模式采集时,总是尽可能多的采集测量数据,造成样本在模式空间里的维数很大。模式维数很大首先带来的问题是处理的困难,处理时间很长,费用很高,有时甚至直接用于分类是不可能的,即所谓“维数灾难”。另外,在过多的数据坐标中,有些对刻划事物的本质贡献不大,甚至很小。因此,特征提取/选择十分必要。
特征提取/选择的目的目标:就是要压缩模式的维数,使之便于处理,减少消耗。
特征提取往往以在分类中使用的某种判决规则为准则,所提取的特征使在某种准则下的分类错误最小。为此,必须考虑特征之间的统计关系,选用适当的正交变换,才能提取最有效的特征。
特征提取的分类准则:在该准则下,选择对分类贡献较大的特征???删除贡献甚微的特征。
3. 分类
分类目标:
把特征空间划分成类型空间。
把未知类别属性的样本确定为类型空间的某一个类型。
在给定条件下,可以否定样本属于某种类型。
实际分类过程中,对于预先给定的条件,分类中出现错误是不可避免的。因此,分类过程只能以某种错误率来完成。显然,错误率越小越好。但是,分类错误率又受很多条件的制约:分类方法、分类器设计、选用的样本及提取的特征等。因此,分类错误率不能任意小。
此外,分类错误率的分析、计算也很困难,只有在较简单的情况下才能有解析的解。分类错误率是分类过程中的重要问题。;数据挖掘和商务智能 ;数据挖掘功能 (1);数据挖掘功能 (1);数据挖掘功能 (2);数据挖掘功能 (3);所有模式都是有趣的吗?;能发现所有有趣模式吗?能够仅产生有趣模式吗?;Data Mining: 多学科交叉 ;Data Mining分类;在何种数据库上进行挖掘?;关系数据库:
是关系表的集合。每个表含有一组属性(字段),大量元组(记录)组成。
例1.1 AllElectronics公司数据库由以下关系表组成:customer, item, employee, branch
PP7
常用操作:增删改查。 数据库查询
例如:“显示上季度销售的商品列表”
统计汇总
“汇总上季度总销售额”
数据挖掘用于关系数据库:
(1)分析customer表,根据客户收入、年龄和以前客户的信用信息预测新客户的信用等级。
(2)检测偏差,与以前年分相比哪种商品销售出人意料。
;数据仓库
AllElectronics有许多分公司,每个分公司有自己的数据库,要获得整个公司的销售情况该如何做呢?
从各分公司数据库获得数据,整理汇总,一致化,去除重复,得到结果。
若经常需要这种操作---重复,费时
建立数据仓库---将这些数据整理、汇总后集中存放。
见图1-7 P9
例1.2 P9 汇总销售的数据立方 返回;事务数据库
由一个文件组成,文件中每个记录代表一个事务。一个事务包含一个唯一的事务ID,和组成事务的项的列表。
例如:Sales事务表
trans_ID list of item_IDs
T100 I1,I2,I5,I6
文档评论(0)