机器学习研究第五讲关系学习.pptVIP

  1. 1、本文档共89页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习研究第五讲关系学习

机器学习研究 第五讲:关系学习 韩彦军 提纲 什么是关系学习? 关系学习中的一阶逻辑方法。 关系学习中的概率方法。 总结。 概述 关系学习,译自Relational Learning.最近十年发展起来的一类机器学习问题及其方法的统称。 关系学习中同一样本的各个属性之间有着 复杂的关系 ,或者不同样本相互之间不独 立,这表明了样本集上的某种结构. 复杂内在结构的问题:文本数据挖掘,生物信息学,交通工程等。 概述 译作关系学习不妥。 误解:代数里的关系(甚至是二元关系) 。 Relational Learning中的关系 :一种关联,用一阶逻辑的语言就是谓词。 为方便起见仍称为关系学习。 概述 与其他能用属性-值方式表示的机器学习问题不同,关系学习中的问题一般无法如此表示:a.每个样本不仅由属性描述,而且其中还要用关系描述 b.属性不等长。 形式化描述 形式化描述 形式化描述 顾客类别预测 提纲 形式化描述 关系学习中的一阶逻辑方法 ILP(归纳逻辑程序)是关系学习领域的研究人员最先采用的解决方法。 一阶逻辑中的基本定义 每个良构的表达式由常量(如Joe, 23),变量(如x),谓词(如在Female(Mary)中的Female)和函数(age(Mary)中的 age)组成。 项(term)为任意常量,任意变量或任意应用到项集合上的函数,例如:Mary, x, age (Mary), age (x). 文字(literal)是应用到项集合上的任意谓词或其否定。例如:Female(Mary), ~Female(x),Greater_than(age(Mary),20) 基本文字(ground literal)是不包含任何变量的文字(如,~Female(Joe)) 负文字(negative literal)是包含任何否定谓词的文字(如:~Female(Joe)) 正文字(positive literal)是不包含否定符号的文字(如:Female(Joe)) 子句(clause)是多个文字的析取式,M1∨M2∨…∨Mn,其中的所有变量是全称量化的。 Horn子句是一个如下形式的表达式:H?(L1∧ L2∧… ∧Ln),其中L1,L2,…Ln为正文字,可以等价地写为析取式: H∨ ~L1∨~L2∨…∨~Ln 置换(substitution)是一个将某些变量替换为某些项的函数。例如:置换{x/3,y/z}把变量x替换为项3并把变量y替换为项z。给定一个置换?和一个文字L,使用L ?表示应用置换后的结果。 逻辑程序(Logic Program):是一阶逻辑的一个子集,逻辑程序由子句构成,即一系列的if/then规则 ILP的任务便是通过归纳学习的方法学习到用逻辑程序表达的概念。 学习规则集合 学习能表示为if-then规则的集合。 其中最重要的一种是学习包含变量的规则集合,或者称为一阶Horn子句集,由于该集合可被解释为逻辑编程语言PROLOG中的程序,学习的过程常被称为归纳逻辑程序(ILP)。 PROLOG是一个与通用图灵机等价的编程语言。 学习规则集合的一种方法是学习决策树,然后转化为等价的规则集合;或者是遗传算法中,用位串编码每个规则集合,然后用遗传搜索算子来探索整个假设空间。 在一阶规则学习中直接学习规则,如: IF Parent(x,y) THEN Ancestor(x,y) IF Parent(x,z) and Ancestor(z,y) THEN Ancestor(x,y) 以上两条规则紧凑地描述了一个递归函数,很难用决策树或者其他的命题方法表示,决策树一般只能学到特殊的规则。 序列覆盖算法 该算法学习规则集的策略为:学习一个规则,移去它覆盖的数据,再重复这一过程,被称为序列覆盖(sequential covering)算法。 假设已有一个子程序LEARN-ONE-RULE,它的输入为正例和反例,然后输出单个规则,它能够覆盖许多正例而覆盖很少的反例。要求有较高的精确度,但是不必有较高的覆盖度。 在所有可用训练样本上执行LEARN-ONE-RULE子程序,再移去由其学习到的规则覆盖的正例,然后在剩余的训练样本上执行,学习第二个规则。 该过程重复多次,直到最后学习到析取规则集。它们共同覆盖正例,覆盖程度达到所希望的比例。 将学习析取规则集的问题化简为一系列更简单的问题,每个子问题只需要学习单个合取规则。贪婪搜索,没有回溯,结果不一定最佳。 LEARN-ONE-RULE 实现LEARN-ONE-RULE的一个有效途径是将假设空加搜索过程设计成与ID3算法相似的方式,但是每一步只沿着最有希望的分支进行。 搜索开始于最一般的规则前件,然后加入那些在训练样例上性能改进最大的属性测

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档