哈师大计算机研究生课程人工智能复习总结范围.docxVIP

下载本文档

0
0
约4.74千字
约 7页
2019-09-23 发布于福建
举报
版权申诉

哈师大计算机研究生课程人工智能复习总结范围.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习的过学习（过拟合）过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。过学习问题出现的原因一般采用比较复杂的结构来构造的分类器，由于其学习能力强，超出了实际问题的需要，使学习机制对样本过度拟合，甚至将样本中的噪声都学习到，从而导致分类器容易出现过学习现象。过学习现象的条件采用的分类器学习能力过强，结构过于复杂；　　训练分类器的样本过少，各类样本数量不平衡。过学习问题的解决办法统计学习理论，在结构和经验风险之间求优。启发式搜索启发式搜索（Heuristically Search）又称为有信息搜索（Informed Search），它是利用问题拥有的启发信息来引导搜索，达到减少搜索范围、降低问题复杂度的目的，这种利用启发信息的搜索过程称为启发式搜索。强化学习强化学习（reinforcement learning），又称再励学习、评价学习，是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用，所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价（通常为标量信号），而不是告诉强化学习系统RLS（reinforcement learning system）如何去产生正确的动作。试错搜索(trial-and-error earch)和延期强化(delayed reinforcement)这两个特性是强化学习中两个最重要的特性。强化学习模型：通过主体与环境的交互进行学习。主体与环境的交互接口包括行动（Action）、奖励（Reward）和状态（State）。交互过程可以表述为如下形式：每一步，主体根据策略选择一个行动执行，然后感知下一步的状态和即时奖励，通过经验再修改自己的策略。主体的目标就是最大化长期奖励。强化学习系统接受环境状态的输入 s，根据内部的推理机制，系统输出相应的行为动作 a。环境在系统动作作用 a 下，变迁到新的状态 s′。系统接受环境新状态的输入，同时得到环境对于系统的瞬时奖惩反馈 r。对于强化学习系统来讲，其目标是学习一个行为策略 π：S→A，使系统选择的动作能够获得环境奖励的累计值最大。强化学习中的Q-学习：归纳学习归纳学习是符号学习中研究得最为广泛的一种方法。给定关于某个概念的一系列已知的正例和反例，其任务是从中归纳出一个一般的概念描述。归纳学习能够获得新的概念，创立新的规则，发现新的理论。它的一般的操作是泛化(generalization) 和特化(specialization)。归纳学习可以分为实例学习、观察与发现学习。归纳原理的基本思想是在大量观察的基础上通过假设形成一个科学理论。归纳学习的一般模式。给定: ① 观察语句集(事实)F：这是有关某类对象中个别具体对象的知识或某一对象的部分特征的知识。 ② 假定的初始归纳断言(可空)：是关于目标的泛化项或泛化描述。 ③ 背景知识：背景知识定义了在观察语句和所产生的候选归纳断言上的假定和限制，以及任何有关问题领域知识。有关问题领域知识包括特化所找归纳断言的期望性质的择优标准。寻找: 归纳断言 H (假设), H 重言或弱蕴涵观察语句并满足背景知识。简单的 AQ 学习算法。 1) 集中注意一个实例(作为种子); 2) 生成该实例的一致性泛化式(称作 star); 3) 根据偏好标准, 从 star 选择最优的泛化式(假设)。如果需要, 特化该假设; 4) 如果该假设覆盖了全部实例, 则停止; 否则选择一个未被假设覆盖的实例,转到(2)。约束推理在约束推理方面，针对约束满足搜索中缩小搜索空间与控制推理代价这一对矛盾，提出了集成式的约束满足搜索算法，设计了智能回溯、约束传播及可变例示次序等策略的适当形式，并将其有机结合起来，以合理的计算代价有效地缩小了搜索空间。一个约束满足问题(Constraint Satisfaction Problem, 简称 CSP) 包含一组变量与一组变量间的约束。约束推理分为以下几种。关系推理 (2) 标记推理 (3) 值推理 (4) 表达式推理最简单形式的约束是一元谓词, 即对变量的标记，几种最重要的标记是符号、区间、与实际值。约束推理的研究主要集中于两个方面：约束搜索与约束语言。约束搜索主要研究有限域上的约束满足。对有限域而言，约束满足问题一般情况下是一个 NP 问题。目前大体包括下列方法：（1）回溯法。（2）约束传播。（3）智能回溯与真值维护。（4）可变次序