数据挖掘算法讲义.ppt

下载文档

2
0
约1.67万字
约 87页
2019-08-10 发布于广西
举报
版权申诉
保障服务

数据挖掘算法讲义.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3.11 关系学习（续）归纳逻辑编程(Inductive Logic Programming, ILP)是处理关系学习领域问题的重要方法。它是归纳学习和逻辑程序结合的产物。 ILP用于一阶逻辑的概念学习和逻辑程序的合成。ILP 系统处理分类任务时主要采用两种方式：覆盖方法和分治方法。子句空间由形如：H←L1,L2,…Lm 的一阶子句构成。 θ-包容关系：假设c和c’是两个程序子句，子句c θ-包容子句c’,如果存在一个替换θ使得cθ?c’ 基于ILP的常用方法有：Progol、FOIL、TLIDE、ICL 四、模型上的模型 4.1 装袋 / 提升给定s个样本的集合S。装袋（Bagging）过程如下。对于迭代t ( t = 1, 2,..., T )，训练集St采用放回选样，由原始样本集S选取。由于使用放回选样，S的某些样本可能不在St中，而其它的可能出现多次。由每个训练集St学习，得到一个分类法Ct。为对一个未知的样本X分类，每个分类法Ct返回它的类预测，算作一票。装袋的分类法C*统计得票，并将得票最高的类赋予X。通过取得票的平均值，装袋也可以用于连续值的预测。 4.1 装袋 / 提升（续）提升（Boosting）过程如下：每个训练样本赋予一个权，并学习得到一系列分类法。对于迭代t ( t = 1, 2,..., T )，学习得到分类法Ct后，更新权，使得随后的分类法Ct+1“更关注”Ct的分类错误。最终的提升分类法C*组合每个分类法的表决，这里每个分类法的表决是其准确率的函数。通过取得票的平均值，提升算法也可以扩充到连续值预测。 4.2 共同训练（Co-Training）共同训练算法用两个不同的“视图”（即特征集合）来描述文本的特征。基本思路：每个视图对应一个学习机，而每个学习机都根据自身已学到的规律来标记“最有把握”的无标记样本，然后将这个（或这几个）新标记的样本加入训练样本，并扩展后的训练样本提供给另一个学习机进行学习。如此反复，直到满足一定的条件为止。该算法中所用到的两个视图需要满足以下两个条件：首先，每个特征集合对文本分类学习来说都是充分的；其次，在给定类别标记的条件下，两个特征集合相互独立。 4.3 主动学习 / 被动学习主动学习在学习过程中可以根据学习进程，选择最有利于分类器性能的样本来进一步训练分类器，它能有效地减少评价样本的数量；被动学习只是随机地选择训练样本，被动地接受这些样本的信息进行学习。主动学习是实现监督学习过程的一个有效的方法。在主动学习过程中，分类器主动地选择对其“最有帮助”的一组子样本进行学习，而不是被动地接受训练集。 “最有帮助”的样本指的是对当前分类器来说，归属最不确定的样本。即当前分类器最难以区分的样本。通常情况下，主动学习的计算复杂度比一般的监督学习过程要显著得低。 4.3 主动学习 / 被动学习（续）初始状态下，候选样本集中所有的样本都未带类别标注，根据先验知识或者随机地从候选样本集中选择少量样本并标注它们的类别，构造初始训练样本集，确保初始训练样本集中至少包含有一个正例样本和一个负例样本。在上述初始训练样本集上训练一个分类器，并采用某种针对该分类器采样算法，从候选样本集中选择最有利于提高分类器性能的样本，手工标注其类别并加入训练样本集，再重新训练分类器。重复以上过程，直到候选样本集为空或达到某种要求。主动学习是一个循环反复的过程。在主动学习的模型中，全部数据被分为两部分，一部分是带标签的样本集X，另一部分是无标签的样本集U。主动学习的模型还包括了一个在带标签的样本集X上训练的学习机L和一个决策模块q。决策模块q用来决定U中的哪一些样本应该被选出标记标签，并加入带标签的样本集X。更新后的X将在下一个轮次被用于训练学习机L。主动学习的框架模型如图。根据决策模块q的不同工作机理，主动学习方法又可以被分为两大类：其一是不确定取样方法；另一是委员会咨询方法。 4.4 直推式学习直推式学习的思想来源于前面提到的机器学习的困境：一方面获取已知标签的样本代价高昂；另一方面获取无标签的样本要相对容易得多。直推式学习的学习过程恰恰可以将大量无标签的测试集样本所携带的分类信息，通过迭代逐步转移到了最终的分类器中去。由于测试样本易于获得、数量较多，直推式学习机能够更好地描述整体样本空间上的数据分布特性，使测试样本的分类结果更为准确。 4.4 直推式学习（续）在多数情况下，人们只对测试文本的分类结果感兴趣，这时就没有必要非得寻求具有良好泛化能力的规则，而只要求分类器能对这些特定的文本做出正确分类即可。它在目前已知标签样本十分紧缺，而未知标签样本易于获得的条件下，有着非常重要的现实意义。 4.5 广义EM算法 EM算法可用于许多问题框架，其中需要估计一组描

您可能关注的文档

文档评论（0）

benzei244572 + 关注: 实名认证

内容提供者

建筑工程师持证人

没啥好说的额

咨询Ta 进入空间

领域认证该用户于2024年10月16日上传了建筑工程师

1亿VIP精品文档

更多 >

数据挖掘算法讲义.ppt