机器学习研究第五讲关系学习.pptVIP

下载本文档

3
0
约7.01千字
约 89页
2017-02-22 发布于上海
举报
版权申诉

机器学习研究第五讲关系学习.ppt

1、本文档共89页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习研究第五讲关系学习

机器学习研究第五讲：关系学习韩彦军提纲什么是关系学习？关系学习中的一阶逻辑方法。关系学习中的概率方法。总结。概述关系学习，译自Relational Learning.最近十年发展起来的一类机器学习问题及其方法的统称。关系学习中同一样本的各个属性之间有着复杂的关系，或者不同样本相互之间不独立，这表明了样本集上的某种结构．复杂内在结构的问题：文本数据挖掘，生物信息学，交通工程等。概述译作关系学习不妥。误解：代数里的关系（甚至是二元关系）。 Relational Learning中的关系 :一种关联，用一阶逻辑的语言就是谓词。为方便起见仍称为关系学习。概述与其他能用属性-值方式表示的机器学习问题不同，关系学习中的问题一般无法如此表示：a.每个样本不仅由属性描述，而且其中还要用关系描述 b.属性不等长。形式化描述形式化描述形式化描述顾客类别预测提纲形式化描述关系学习中的一阶逻辑方法 ILP（归纳逻辑程序）是关系学习领域的研究人员最先采用的解决方法。一阶逻辑中的基本定义每个良构的表达式由常量（如Joe, 23),变量（如x），谓词（如在Female(Mary)中的Female）和函数（age(Mary)中的 age)组成。项（term）为任意常量，任意变量或任意应用到项集合上的函数，例如：Mary, x, age (Mary), age (x). 文字（literal）是应用到项集合上的任意谓词或其否定。例如：Female(Mary), ~Female(x),Greater_than(age(Mary),20) 基本文字（ground literal）是不包含任何变量的文字（如，~Female(Joe)）负文字（negative literal）是包含任何否定谓词的文字（如：～Female(Joe)）正文字（positive literal）是不包含否定符号的文字（如：Female(Joe)）子句（clause）是多个文字的析取式，M1∨M2∨…∨Mn，其中的所有变量是全称量化的。 Horn子句是一个如下形式的表达式：H?(L1∧ L2∧… ∧Ln),其中L1,L2,…Ln为正文字，可以等价地写为析取式： H∨ ~L1∨~L2∨…∨~Ln 置换（substitution）是一个将某些变量替换为某些项的函数。例如：置换{x/3,y/z}把变量x替换为项3并把变量y替换为项z。给定一个置换?和一个文字L，使用L ?表示应用置换后的结果。逻辑程序（Logic Program）：是一阶逻辑的一个子集，逻辑程序由子句构成，即一系列的if/then规则 ILP的任务便是通过归纳学习的方法学习到用逻辑程序表达的概念。学习规则集合学习能表示为if-then规则的集合。其中最重要的一种是学习包含变量的规则集合，或者称为一阶Horn子句集，由于该集合可被解释为逻辑编程语言PROLOG中的程序，学习的过程常被称为归纳逻辑程序（ILP）。 PROLOG是一个与通用图灵机等价的编程语言。学习规则集合的一种方法是学习决策树，然后转化为等价的规则集合；或者是遗传算法中，用位串编码每个规则集合，然后用遗传搜索算子来探索整个假设空间。在一阶规则学习中直接学习规则，如： IF Parent(x,y) THEN Ancestor(x,y) IF Parent(x,z) and Ancestor(z,y) THEN Ancestor(x,y) 以上两条规则紧凑地描述了一个递归函数，很难用决策树或者其他的命题方法表示，决策树一般只能学到特殊的规则。序列覆盖算法该算法学习规则集的策略为：学习一个规则，移去它覆盖的数据，再重复这一过程，被称为序列覆盖(sequential covering)算法。假设已有一个子程序LEARN-ONE-RULE,它的输入为正例和反例，然后输出单个规则，它能够覆盖许多正例而覆盖很少的反例。要求有较高的精确度，但是不必有较高的覆盖度。在所有可用训练样本上执行LEARN-ONE-RULE子程序，再移去由其学习到的规则覆盖的正例，然后在剩余的训练样本上执行，学习第二个规则。该过程重复多次，直到最后学习到析取规则集。它们共同覆盖正例，覆盖程度达到所希望的比例。将学习析取规则集的问题化简为一系列更简单的问题，每个子问题只需要学习单个合取规则。贪婪搜索，没有回溯，结果不一定最佳。 LEARN-ONE-RULE 实现LEARN-ONE-RULE的一个有效途径是将假设空加搜索过程设计成与ID3算法相似的方式，但是每一步只沿着最有希望的分支进行。搜索开始于最一般的规则前件，然后加入那些在训练样例上性能改进最大的属性测