数据挖掘原理算法与应用教学作者梁亚声第3章节电子教案课件幻灯片.ppt

下载文档

18
1
约7.92千字
约 39页
2018-03-26 发布于广东
举报
版权申诉
保障服务

数据挖掘原理算法与应用教学作者梁亚声第3章节电子教案课件幻灯片.ppt

1、本文档共39页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.6 数据离散化 3.6.4 ChiMerge技术 ChiMerge是一种自动化的离散算法，它使用X2统计来分析已知特征的多个区间的质量。此算法根据输出样本的分类来确定两个相邻区间中的数据分布的相似性。如果X2的检验结果是输出类独立于特征的区间，就应该合并区间，否则就表示区间之间的统计差别很大，不能合并。 ChiMerge离散算法包括3个步骤：对已知特征的数据进行升序排列。定义初始区间，使特征的每个值都在一个单独的区间内。重复进行，直到任何两个相邻区间的X2都不小于阈值。 3.6 数据离散化 3.6.5 人工划分分段 3-4-5规则可以用于将数值数据划分成相对一致、“自然的”区间。一般地，该规则根据最高有效位上的值区域，递归地、逐层地将给定的数据区域划分为3、4或5个等长的区间。该规则如下：如果一个区间在最高有效位上包含3、6、7或9个不同的值，则将该区间划分成3个区间（对于3、6和9，划分成3个等宽的区间；而对于7，按2-3-2分组，划分成3个区间）；如果它在最高有效位上包含2、4或8个不同的值，则将区间划分成4个等宽的区间；如果它在最高有效位上包含1、5或10个不同的值，则将区间划分成5个等宽的区间。 3.7 特征提取、选择和构造 3.7.1 特征提取把输入集转换为新的归约特征集称为特征提取。线性维归约会得到k个新导出的特征，来替代初始的p个特征（kp）。新特征的组成是初始特征的线性组合：用矩阵表示： 3.7 特征提取、选择和构造 3.7.1 特征提取 Isomap非线性维归约算法的步骤：第一步是计算每个输入样本的k个距离最近的邻近点，再绘制一个图形，其顶点表示输入样本，用无方向的线条连接k个距离最近的邻近点。再根据距离最近的邻近点之间的欧式距离，给这些线条指定加权值。第二步是根据图中的最短路径，计算所有节点对（I,j）之间的距离。这可以使用著名的Djikstra算法来完成。最后的第三步，把节点对的距离值作为MDS的输入，确定一个新的归约特征集。 3.7 特征提取、选择和构造 3.7.1 特征提取特征归约处理的目的随实际问题而变化，但一般说来希望：（1）提高模型生成过程和所得模型的性能（典型标准有学习速度、预测精度和模型的简易程度）。（2）通过以下措施，在不降低模型质量的情况下减少模型的维度。去除不相关的特征；检测、去除冗余的特征和数据；识别高度相关的特征；提取确定模型的独立特征。（3）帮助用户可视化维度更少的可能结果，以改进决策。 3.7 特征提取、选择和构造 3.7.2 特征选择在数据挖掘中，特征选择也称为变量选择、特征归约或变量子集选择，这个技术会从数据中删除大多数非相关特征和冗余特征，选择出相关特征的一个子集，以建立健壮的学习模型。特征选择的目标有三：提高数据挖掘模型的性能，提供更快、性价比更高的学习过程，更好地理解生成数据的基本过程。特征选择算法一般分为两类：特征排列算法和子集选择算法。不同的特征选择方法可以得出不同的归约数据集。 3.7 特征提取、选择和构造 3.7.2 特征选择特征选择的目标是找出特征的一个子集，此子集的数据挖掘性能比得上整个特征集。最优的搜索方法有：只检查有前景的特征子集——这种子集往往通过试探式方法得出，这为找出有竞争力的特征提供了足够的空间。用计算简单地距离度量值替换错误的度量值——这种近似方法减少了计算时间，并给出了令人满意的结果，来比较备选的特征子集。只根据大量数据的子集选择特征，但是随后的数据挖掘步骤将应用于整个数据集。 3.7 特征提取、选择和构造 3.7.3 特征构造特征构造是一个过程，它通过推断或创建附加的特征来发现特征之间联系的缺失信息和扩展特征空间。为了构造新特征，可能需要搜索指数多个原特征的组合，并且并非所有的组合都是需要的和有用的。尽管有人试图通过考察已有特征的简单地数据组合来自动地进行特征构造，但是最常见的方法还是使用专家的意见构造特征。 3.1 数据预处理的必要性 3.2 数据清洗 3.5 数据归约 3.6 数据离散化第3章数据预处理 3.3 数据集成 3.4 数据转换 3.7 特征提取、选择和构造 3.1 数据预处理的必要性杂乱数据的来源：首先，数据杂乱是由于数据丢失造成的。数据杂乱的第二个原因是数据的误记录，这在大数据集中非常常见。此外，数据可能并不来自假定的样本母体。数据准备阶段的两个中心任务：把数据组织成一种标准形式，以便于数据挖掘工具和其他基于计算机的工具处理（标准形式是一个关系表）。准备数据集，使其能得到最佳的数据挖掘效果。首先，数据挖掘者和领域内专家可手动检查缺值样本，再根据经验加入一个合理的、可能的、预期的值。第二种方法是消除丢失值的一个更简单地解决方案，