数据挖掘分类概要1.ppt

下载文档 降价啦

4
0
约1.01万字
约 53页
2017-07-10 发布于湖北
举报
版权申诉
保障服务

数据挖掘分类概要1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘分类概要1

* 基于神经网络的分类方法缺点：需要很长的训练时间，因而对于有足够长训练时间的应用更合适。需要大量的参数，这些通常主要靠经验确定，如网络拓扑。可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。 * 基于神经网络的分类方法优点：分类的准确度高并行分布处理能力强分布存储及学习能力高对噪音数据有很强的鲁棒性和容错能力最流行的基于神经网络的分类算法是80年代提出的后向传播算法。 * 后向传播算法后向传播算法在多路前馈神经网络上学习。 * 定义网络拓扑在开始训练之前，用户必须说明输入层的单元数、隐藏层数（如果多于一层）、每一隐藏层的单元数和输出层的单元数，以确定网络拓扑。 * 定义网络拓扑对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常，对输入值规格化，使得它们落入0.0和1.0之间。离散值属性可以重新编码，使得每个域值一个输入单元。例如，如果属性A的定义域为(a0 ,a1 ,a2)，则可以分配三个输入单元表示A。即，我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0，则I0置为1；如果A = a1，I1置1；如此下去。一个输出单元可以用来表示两个类（值1代表一个类，而值0代表另一个）。如果多于两个类，则每个类使用一个输出单元。 * 定义网络拓扑隐藏层单元数设多少个“最好” ，没有明确的规则。网络设计是一个实验过程，并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低，则通常需要采用不同的网络拓扑或使用不同的初始权值，重复进行训练。 * 后向传播算法后向传播算法学习过程：迭代地处理一组训练样本，将每个样本的网络预测与实际的类标号比较。每次迭代后，修改权值，使得网络预测和实际类之间的均方差最小。这种修改“后向”进行。即，由输出层，经由每个隐藏层，到第一个隐藏层（因此称作后向传播）。尽管不能保证，一般地，权将最终收敛，学习过程停止。算法终止条件：训练集中被正确分类的样本达到一定的比例，或者权系数趋近稳定。 * 后向传播算法后向传播算法分为如下几步：初始化权向前传播输入向后传播误差 * 后向传播算法初始化权网络的权通常被初始化为很小的随机数（例如，范围从-1.0到1.0，或从-0.5到0.5）。每个单元都设有一个偏置（bias），偏置也被初始化为小随机数。对于每一个样本X，重复下面两步：向前传播输入向后传播误差 * 向前传播输入计算各层每个单元的输入和输出。输入层：输出=输入=样本X的属性；即，对于单元j，Oj = Ij = Xj 隐藏层和输出层：输入=前一层的输出的线性组合, 即，对于单元j， Ij =∑wij Oi + θj i 输出= * 向后传播误差计算各层每个单元的误差。向后传播误差，并更新权和偏置计算各层每个单元的误差。输出层单元j，误差 Oj是单元j的实际输出，而Tj是j的真正输出。隐藏层单元j，误差 wjk是由j到下一层中单元k的连接的权 Errk是单元k的误差 * 向后传播误差更新权和偏差，以反映传播的误差。权由下式更新：其中，?wij是权wij的改变。l是学习率，通常取0和1之间的值。偏置由下式更新：其中，??j是偏置?j的改变。后向传播算法 Output nodes Input nodes Hidden nodes Output vector Input vector: xi wij * * Example 设学习率为0.9。训练样本X = {1,0,1} 类标号为1 x1 x2 x3 w14 w15 w24 w25 W34 w35 w46 w56 ?4 ?5 ?6 1 0 1 0.2 -0.3 0.4 0.1 -0.5 0.2 -0.3 -0.2 -0.4 0.2 0.1 单元j 净输入Ij 输出Oj 4 5 6 0.2+0-0.5-0.4 = -0.7 -0.3+0+0.2+0.2 = 0.1 (-0.3)(0.332)-(0.2)(0.525)+0.1 = -0.105 1+(1+e0.7) = 0.332 1+(1+e-0.1) = 0.525 1+(1+e-0.105) = 0.474 单元j Errj 6 5 4 (0.474)(1-0.474)(1-0.474) = 0.1311 (0.525)(1-0.525)(0.13