数据挖掘分类概要1.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘分类概要1

* 基于神经网络的分类方法 缺点: 需要很长的训练时间,因而对于有足够长训练时间的应用更合适。 需要大量的参数,这些通常主要靠经验确定,如网络拓扑。 可解释性差。该特点使得神经网络在数据挖掘的初期并不看好。 * 基于神经网络的分类方法 优点: 分类的准确度高 并行分布处理能力强 分布存储及学习能力高 对噪音数据有很强的鲁棒性和容错能力 最流行的基于神经网络的分类算法是80年代提出的后向传播算法。 * 后向传播算法 后向传播算法在多路前馈神经网络上学习。 * 定义网络拓扑 在开始训练之前,用户必须说明输入层的单元数、隐藏层数(如果多于一层)、每一隐藏层的单元数和输出层的单元数,以确定网络拓扑。 * 定义网络拓扑 对训练样本中每个属性的值进行规格化将有助于加快学习过程。通常,对输入值规格化,使得它们落入0.0和1.0之间。 离散值属性可以重新编码,使得每个域值一个输入单元。例如,如果属性A的定义域为(a0 ,a1 ,a2),则可以分配三个输入单元表示A。即,我们可以用I0 ,I1 ,I2作为输入单元。每个单元初始化为0。如果A = a0,则I0置为1;如果A = a1,I1置1;如此下去。 一个输出单元可以用来表示两个类(值1代表一个类,而值0代表另一个)。如果多于两个类,则每个类使用一个输出单元。 * 定义网络拓扑 隐藏层单元数设多少个“最好” ,没有明确的规则。 网络设计是一个实验过程,并可能影响准确性。权的初值也可能影响准确性。如果某个经过训练的网络的准确率太低,则通常需要采用不同的网络拓扑或使用不同的初始权值,重复进行训练。 * 后向传播算法 后向传播算法学习过程: 迭代地处理一组训练样本,将每个样本的网络预测与实际的类标号比较。 每次迭代后,修改权值,使得网络预测和实际类之间的均方差最小。 这种修改“后向”进行。即,由输出层,经由每个隐藏层,到第一个隐藏层(因此称作后向传播)。尽管不能保证,一般地,权将最终收敛,学习过程停止。 算法终止条件:训练集中被正确分类的样本达到一定的比例,或者权系数趋近稳定。 * 后向传播算法 后向传播算法分为如下几步: 初始化权 向前传播输入 向后传播误差 * 后向传播算法 初始化权 网络的权通常被初始化为很小的随机数(例如,范围从-1.0到1.0,或从-0.5到0.5)。 每个单元都设有一个偏置(bias),偏置也被初始化为小随机数。 对于每一个样本X,重复下面两步: 向前传播输入 向后传播误差 * 向前传播输入 计算各层每个单元的输入和输出。 输入层: 输出=输入=样本X的属性; 即,对于单元j,Oj = Ij = Xj 隐藏层和输出层: 输入=前一层的输出的线性组合, 即,对于单元j, Ij =∑wij Oi + θj i 输出= * 向后传播误差 计算各层每个单元的误差。向后传播误差,并更新权和偏置 计算各层每个单元的误差。 输出层单元j,误差 Oj是单元j的实际输出,而Tj是j的真正输出。 隐藏层单元j,误差 wjk是由j到下一层中单元k的连接的权 Errk是单元k的误差 * 向后传播误差 更新权和偏差,以反映传播的误差。 权由下式更新: 其中,?wij是权wij的改变。l是学习率,通常取0和1之间的值。 偏置由下式更新: 其中,??j是偏置?j的改变。 后向传播算法 Output nodes Input nodes Hidden nodes Output vector Input vector: xi wij * * Example 设学习率为0.9。训练样本X = {1,0,1} 类标号为1 x1 x2 x3 w14 w15 w24 w25 W34 w35 w46 w56 ?4 ?5 ?6 1 0 1 0.2 -0.3 0.4 0.1 -0.5 0.2 -0.3 -0.2 -0.4 0.2 0.1 单元j 净输入Ij 输出Oj 4 5 6 0.2+0-0.5-0.4 = -0.7 -0.3+0+0.2+0.2 = 0.1 (-0.3)(0.332)-(0.2)(0.525)+0.1 = -0.105 1+(1+e0.7) = 0.332 1+(1+e-0.1) = 0.525 1+(1+e-0.105) = 0.474 单元j Errj 6 5 4 (0.474)(1-0.474)(1-0.474) = 0.1311 (0.525)(1-0.525)(0.13

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档