- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
6.1 机器学习概述 学习可能只是一个简单的联想过程,给定了特定的输入,就会产生特定的输出。如:狗 命令“坐” 行为“坐” Agent通过学习获得了知识,这就是知识的自动获取。 学习的成功是多种多样的: 学习识别客户的购买模式以便能检测出信用卡欺诈行为, 对客户进行扼要描述以便能对市场推广活动进行定位, 对网上内容进行分类并按用户兴趣自动导入数据, 贷款申请人的信用打分, 燃气涡轮的故障诊断等。 6.1.1 学习中的元素 学习Agent的核心是一个算法,该算法定义了用于学习的过程。 算法输出可以是 光扫描手写体的识别, 机器人为抓住某物体需要执行的动作, 棋类游戏中的下一步移动, 是否允许贷款申请人贷款的建议。 称学习的结果为目标函数。 如,目标函数可能会接收一幅扫描字符图像,然后输出{A,B,…,Z,0,1…,9}中对应的一个实例。 要回答: 目标函数如何表示? 在学习的过程中对什么进行适应? 如何指导或提供判断,使得Agent可以知道学习正沿着正确的路线进行? 如何知道学习将在什么时候完成? 又如何知道学习已获成功? 6.1.2目标函数的表示 学习算法分类: 可以分为有监督和无监督两种; 按照学习任务的类型进行分组,如概念学习或回归学习; 可按照应用领域进行分组。 可按照目标函数的表示方法对学习进行分组。 图6-2给出了三种不同的假设(目标函数)表示方法。 1)使用了一棵树,根节点表示属性,分支表示属性值。树可用来表示分类函数、决策函数,甚至还可用来表示程序。 2)使用了一阶逻辑。为了对一组点进行分类, 3)使用两条直线组成了一个决策区域。 影响表示选择的因素很多,如 属性类型(比如,连续的或离散的), 执行学到的任何函数必需的速度, 学习过程是否为整个系统的一部分, 以及特定学习算法将会有更好性能的信念等。 经常影响假设表示选择的另外一个因素是已学知识的可见性。 许多表示形式如分类树和一阶逻辑都能够对知识进行显式表示。通过显式表示,就可能对如何产生这个决策进行解释。 某些假设更像一个黑匣子。如,通过神经网络学习得到的知识是由该网络的权值来表示的。 在学习过程中会产生不同的候选假设。如图6-2所示,在学习过程中会产生不同的树,每一棵树都表示了一个不同的分类函数。通过增加和删除文字可以对一阶逻辑表达式进行修改。 对于显示的第三种表示方法,可通过重画已有直线或增加额外直线对其中的直线进行修改,这样可产生不同的候选假设。学习过程可被视为在候选假设空间上的一个搜索,搜索的目的是寻找最能表示目标函数的那个假设。 6.1.3学习任务的类型 1.分类学习 如光扫描和自动识别手写字符。 若语言为英语,则机器需要学习的只是对数字0-9以及字符A-Z的分类。这个学习过程是有监督的,因为每个训练例子的类标都是已知的。 无监督学习还广泛地用在没有可用目标分类的情况下,这时的学习任务就是在训练例子中搜寻那些较为相似的模式。这样的典型应用是对传感器获得的数据进行异常检测,传感器固定在机器上,这样可及时检测出对应机器的故障,以免导致更大的错误。 2.动作序列学习 对棋类游戏以及那些周游于办公室附近用来清空垃圾箱的机器人来说,都需要情景估计和动作选择。 用来下棋的Agent必须读懂棋盘的当前状态,并决定将要采取的下一步动作:移动某个棋子,依据是它相信这个动作将会使获胜的可能性最大。 机器人决定采取的下一步动作将会使垃圾收集的效率最大,同时确保在到达再次充电地点之前不会搁浅。 3.最优决策学习 学习过程还包括了对贝叶斯网络和决策网络结构的自动创建,以及随着经验的积累不断对其分布进行调整。 决策过程还可能表达为一棵决策树。学习的这些形式当然也包括可能会串行执行甚至会并行执行的动作。 学到的决策过程在期望奖励与期望惩罚之比最大化这个意义下一定是最优的。 如,对是否要发射航天器进行决策一定要在按时发射和丢失风险之间进行权衡,这种风险是由外部因素(如天气条件)引起的。 4.回归函数学习 回归学习指的是学习一个变量(因变量)与其他变量(自变量)间的某种相关性。 如,某喷气式发动机有两个轴,一个轴连接低速压缩机,另一个轴连接高速压缩机。这两个轴在机械上是相互独立的,但它们旋转的速度却是相关的。旋转速度用来计算性能,这是飞机发动机的一个关键度量。传感器故障可导致其中一个轴的某信号缺失,这样就有可能通过其他发动机控制参数对该缺失信号进行插值,这些控制参数中就包括另外一个轴的旋转速度。 回归函数学习的另一个例子是对股票指数的未来值进行预测。 5.程序学习 所有学习形式都可视做一种自动程序设计。然而,也存在另外一些学习算法,它们的特定目的就是用来学习表示任务的解决方案,表示的语法很像一种编程语言.例如,存在某些学习算法,它们的目标函
文档评论(0)