ml-chap12..docVIP

下载本文档

4
0
约2.5万字
约 24页
2017-01-11 发布于重庆
举报
版权申诉

ml-chap12..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ml-chap12.

　归纳和分析学习的结合纯粹的归纳学习方法通过在训练样例中寻找经验化的规律来形成一般假设。纯粹的分析方法使用先验知识演绎推导一般假设。本章考虑将归纳和分析的机制结合起来的方法，以获得两者的优点：有先验知识时更高的泛化精度，和依赖训练数据克服先验知识的不足。所得到的结合的方法比纯粹的归纳学习方法和纯粹的分析学习方法性能都要高。本章考虑的归纳-分析学习方法同时基于符号表示和人工神经网络表示。动机在前几章我们已经见到了两种类型的机器学习：归纳学习和分析学习。归纳方法如决策树归纳和神经网络反向传播等，它寻找拟合训练数据的一般假设。分析的方法如Prolog-EBG，它寻找拟合先验知识的一般假设，同时使它覆盖训练数据。这两种学习范型所基于的对学习到的假设的论证方法有根本的不同，因此，优缺点互为补充。将它们结合起来有可能得到更强有力的学习方法。纯粹的分析学习方法优点在于，可用先验知识从较少的数据中更精确地泛化以引导学习，然而当先验知识不正确或不足时，这一方法可能会进入歧途。纯粹的归纳方法具有的优点是不需要显式的先验知识，并且主要基于训练数据学习到规律。然而，若训练数据不足时它能会失败，并且会被其中隐式的归纳偏置所误导，而归纳偏置是从观察数据中泛化所必需的。表12-1概述了两者的互补的优点和缺陷。本章考虑的问题是怎样将二者结合成一个单独的算法，以获得它们各自的优点。归纳和分析学习方法之间的不同可从它们对学习到的假设进行的论证（justification）的性质中看出。由纯粹的分析学习（如Prolog-EBG）输出的假设执行的是逻辑（logical）论证：输出的假设从领域理论和训练数据中演绎派生。对纯粹的归纳学习方法（如反向传播）输出的假设执行的是统计论证：输出的假设从统计论据中派生，它说明训练样本足够大从而可能代表样例的基准分布。归纳的统计论证在第7章讨论的PAC学习中已被清晰地阐明。既然分析的方法提出逻辑论证的假设，而归纳方法提供统计论证的假设，很容易看出为什么可以将两者结合起来。逻辑的论证的强度只相当于它们所基于的假定或先验知识。如果先验知识不正确或不可得，逻辑论证是不可信的且无力的。统计论证的强度依赖于它们基于的数据和统计假定。当基准分布不可信或数据稀缺时，统计论证也是不可信且无力的。简而言之，两种方法针对不同的类型的问题时才有效。通过两者的结合，有望开发出更通用的学习方法，可以覆盖较广的学习任务。表12-1纯粹的分析学习和纯粹归纳学习的比较归纳学习分析学习目标拟合数据的假设拟合领域理论的假设论证统计推理演绎推理优点需要很少先验知识从稀缺的数据中学习缺陷稀缺的数据，不正确的偏置不完美的领域理论 336 Inductive learning: 归纳学习 Plentiful data: 丰富的数据 No prior knowledge:无先验知识 Analytical learning: 分析学习 Perfect prior knowledge:完美的先验知识 Scarce data: 稀缺的数据图12-1学习任务的分布范围。在最左端，没有可用的先验知识，因此需要纯粹的归纳学习方法以及较高的样本复杂度。在最右端，有完美的领域理论，可以使用如Prolog-EBG这样的纯粹分析方法。更多的实际问题位于这两个极端之间。图12-1概述了学习问题的分布范围，它随着可获得的先验知识和训练数据不同而变化。在一个极端，有大量的训练数据，但没有先验知识。在另一极端，有很强的先验知识，但训练数据很少。多数实际学习问题位于这两个极端之间。例如，分析医疗记录的数据库以学习“用治疗手段x比治疗手段y更有效的病症”，通常可以开始于近似的先验知识（如疾病中内在的因果机制的定性模型），比如认定患者的体温比他的姓名更相关。类似地，在分析一个股票市场数据库以学习目标概念“股票值在后10个月会翻番的公司”中，如果已有了经济学的大概知识，可以提出公司的总利润比公司标志的颜色更相关。在这两种问题中，我们的先验知识是不完整的，但显然，它有助于区分相关和不相关的特征。本章考虑的问题是：“我们可以设计出怎样的算法，使用近似的先验知识结合可用数据来形成一般假设？”注意，即使在使用纯粹的归纳学习算法时，仍有机会基于特定学习任务的先验知识来选择设计方案。例如，当应用反向传播来解决语音识别这样的问题时，设计者必须选择输入和输出数据的编码方式、在梯度下降中被最小化的误差函数、隐藏单元的数量、网络的拓扑结构、学习速率和冲量等。在做这些选择时，设计者可以将领域特定的知识嵌入到学习算法中。然而结果仍然是纯粹的归纳算法反向传播的一个实现，由设计者特殊化后针对语音识别任务。我们的感兴趣的不在于此，而在于一个系统能将先验知识作为显式的输入给学习器