《大数据挖掘与统计机器学习》教学课件—0203.pptxVIP

《大数据挖掘与统计机器学习》教学课件—0203.pptx

  1. 1、本文档共83页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
五、决策树与组合方法;?;二分类示意;?;?;需要说明的一些问题 1.二叉树还是多叉树 2.自变量的进一步处理 3. 其他的决策树算法 4.决策树的一些问题;?;?;?; 5.2.4 讨论 Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。 Bagging算法可以让好的分类器(错分率e0.5)效果更好,但也会让坏的分类器(错分率e0.5)效果更坏。 对于回归问题,M的值可以取得小一些,对于分类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。 每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量n。当提高Bootstrap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。 如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(variance),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。 ;?;?;5.3.2 可加模型:从统计的角度看Adaboost 各种理论解释 偏差-方差分解 减小偏差,boosting树桩或者很小的树 提升边际 博弈论 可加模型 可以证明二分类AdaBoost算法是最小化指数损失L(y, f(x))=exp(-yf(x)) 的分步向前可加模型 y取值+1或-1;?;?;?;?;六、神经网络与深度学习;?;#截取一部分点进行分析t matplotlib.patches as patches fig1 = plt.figure(figsize=(6,10)) ax1 = fig1.add_subplot(1,1,1, aspect=equal) ax1.add_patch(patches.Rectangle((-74.0,40.66),0.05,0.045,fill=False,edgecolor=r,linewidth=3));?;22; 6.1.2 人工神经网络的结构 (1)前向网络 前向网络中神经元是分层排列的,每层神经元只接收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。 ;(2)反馈网络 反馈网络又称递归网络、回归网络,它和前向网络的区别在于它至少有一个反馈环,形成封闭回路,即反馈网络中至少有一个神经元将自身的输出信号作为输入信号反馈给自身或其他神经元。 ;6.1.3 人工神经网络的学习 (1)学习方式 有监督学习(有导师学习) 无监督学习(无导师学习) 强化学习 (2)学习规则 误差纠正学习规则 Hebb学习规则 ;6.1.4 感知机 感知器神经网络是一种典型的前向神经网络,具有分层结构,信息从输入层进入网络并逐层向前传递至输出层。 (1)单层感知器;(2)多层感知器 由于单层感知器只能处理线性可分的数据,而现实世界中的数据大多不是线性可分的,因此相关研究者提出在单层感知器的输入层和输出层之间增加一个或多个隐层,由此构成多层感知器,也称为多层前向神经网络。;反向传播算法(Back Propagation Algorithm,简称BP算法): BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号对网络连接权值进行调整。反复执行信号的正向传播与误差的反向传播这两个过程,直至网络输出误差小于预先设定的阈值,或进行到预先设定的学习次数为止。 ; BP网络的输入层与输出层的节点数依据所处理的任务确定后,还需确定隐层数和隐层节点数。 确定隐层节点数的最基本原则是:在满足精度要求的前提下取尽可能紧凑的结构,即取尽可能少的隐层节点数。这意味着可以先从隐层节点数少的神经网络开始训练,然后增加节点数,选取网络误差最小时对应的节点数;也可一开始加入足够多的隐层节点数,通过学习把不太起作用的隐层节点删去。 ;6.2.深度学习 深度神经网络是指含有多个隐层的神经网络,与含有一个隐层的浅层神经网络相对应。它模仿大脑皮层的深度架构来处理数据。 对含有一个隐层的浅层网络使用BP算法能获得较好效果,对深度神经网络使用BP算法进行训练存在一定的问题: 梯度弥散问题 局部极值问题 数据获取问题 深度学习方法: 卷积神经网络(Convolutioal Neural Networks,CNN) 深度玻尔兹曼机(Deep Boltzmann Machine

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档