数据仓库与数据挖掘程序.docx

下载文档 降价啦

0
0
约1.07万字
约 14页
2017-06-19 发布于湖北
举报
版权申诉
保障服务

数据仓库与数据挖掘程序.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据仓库与数据挖掘数据挖掘（Data Mining）概念从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在价值的信息和知识的过程。简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识，因此又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD) 数据挖掘的类型按方法分：直接数据挖掘：对某个变量建立一个模型；包括分类、估值和预测间接数据挖掘：在所有的变量中建立起某种关系；如相关性分组或关联规则，聚类，描述和可视化，及复杂数据挖掘按任务分：Prediction MethodsUse some variables to predict unknown or future values of other variables.Description MethodsFind human-interpretable patterns/rules that describe given data.数据挖掘知识发现kDD的关系：知识发现（Knowledge Discovery in Databases）是用数据库管理系统来存储数据，用机器学习的方法来分析数据，挖掘大量数据背后隐藏的知识，称为数据库中的知识发现。所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 (1) KDD 是 “数据挖掘”的一种更广义的说法；(2) 数据挖掘是整个 KDD 过程的核心。频繁模式 – 数据库中出现频繁的模式(项集,序列,等等)可信度（Confidence）— 设W 中支持物品集A 的事务中，有c ％的事务同时也支持物品集B，c％称为关联规则A→B 的可信度。支持度（Support）— 设W中有s％的事务同时支持物品集A 和B，s ％称为关联规则A→B 的支持度。最小支持度 – 表示规则中的所有项在事务中出现的频度最小可信度 – 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度频繁集 – 支持度大于或等于supmin的项集称为频繁项集，满足最小支持度的项集FP-树构建扫描事务数据库D一次,得到频繁项的集合F及它们的支持度.将F按支持度降序排列成L,L是频繁项的列表.创建FP-树的根, 标注其为NULL.对D中的每个事务进行以下操作:根据 L中的次序对事务中的频繁项进行选择和排序. 设事务中的已排序的频繁项列表为[p|P],其中p表示第一个元素,P表示剩余的列表.调用insert_Tree([p|P],T).分类的定义分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类，用基于归纳的学习算法得出分类. 分类过程获取数据：数据的表示（图像—文字、指纹，波形--脑电图、心电图、机械振动波等，物理数据既包含数值型数据，也包含描述型数据，逻辑数据--只有两种取值的描述型的数据）输入数据、对数据进行量化预处理：去除噪声数据、对缺失值进行处理数据集成或者变换（维数灾难，降维）分类器设计：划分数据集（给定带类标号的数据集，并且把数据集划分为两个部分：训练集和测试集）分类器构造（利用训练集构造分类器，也就是建立分类模型）分类器测试（利用测试集对分类器的分类性能进行评估）分类决策：对未知类标号的数据样本（测试样本）进行分类分类的评价准则给定测试集Xtest={(xi,yi)|i=1,2,…,N}N表示测试集中的样本个数xi表示测试集中的数据样本yi表示数据样本xi的类标号对于测试集的第j个类别，假设被正确分类的样本数量为TPj被错误分类的样本数量为FNj其他类别被错误分类为该类的样本数据量为FPj 精确度：代表测试集中被正确分类的数据样本所占的比例查全率：表示在本类样本中被正确分类的样本所占的比例查准率：表示被分类为该类的样本中，真正属于该类的样本所占的比例 F-measure：是查全率和查准率的组合表达式几何均值：是各个类别的查全率的平方根决策树的基本概念适用于离散值属性、连续值属性采用自顶向下的递归方式产生一个类似于流程图的树结构在根节点和各内部节点上选择合适的描述属性，并且根据该属性的不同取值向下建立分枝决策树的优点：1）进行分类器设计时，决策树分类方法所需时间相对较少2）决策树的分类模型是树状结构，简单直观，比较符合人类的理解方式3）可以将决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则，这种形式更有利于理解决策树的难点：1）如何选择一个好的分支取值好的分支取值可以加快决策树的生长，更重要的是产生结构好的决策树相反，差的分支取值不但影响决策树的生长，更重要的是产生的决策树分支过细、结构差