- 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
- 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
- 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
Classified Index: TP391
U.D.C: 681
Dissertation for the Doctoral Degree in Engineering
INDUCTIVE LOGIC PROGRAMMING LEARNING
ALGORITHM WITH UNLABELED DATA AND
PHASE TRANSITION
Candidate : Li Yanjuan
Supervisor : Prof. Guo Maozu
Academic Degree Applied for : Doctor of Engineering
Speciality : Artificial Intelligence and
Information Process
Affiliation : School of Computer Science and
Technology
Date of Defence : July, 2012
Degree-Conferring-Institution : Harbin Institute of Technology
摘 要
摘 要
归纳逻辑程序设计(Inductive Logic Programming, ILP )是逻辑程序设计与机器
学习相结合而产生的研究领域。ILP 一方面继承了逻辑程序设计稳固的理论基础,
另一方面继承了机器学习面向应用的特点,采用比命题逻辑更具表达力的一阶谓词
逻辑表示经验数据和学习到的规则,而且可以非常自然地利用背景知识,克服了传
统机器学习方法描述能力弱和无法利用背景知识的限制,为机器学习方法提供了更
加深入的理论和方法,为人工智能的应用领域提供了强有力的技术支持,逐渐成为
机器学习领域的前沿研究课题。
本文主要开展了 ILP 算法的研究。针对目前的 ILP 算法都属于监督学习,要求
有充分的训练数据保证泛化能力,而现实世界中容易得到的是无标记数据,研究了
如何利用无标记数据提高泛化能力。针对 ILP 的覆盖测试问题是NP 难题存在着相
变现象,研究了相变框架下 ILP 算法的搜索宽度与学习成功率的关系,及根据相变
理论初始化遗传归纳逻辑程序设计算法的种群。本文的具体研究内容包括:
(1)提出利用无标记数据提高泛化能力的归纳逻辑程序设计算法
目前的ILP 算法都属于监督学习,需要大量的标记数据以保证泛化能力,而在
网页分类等实际应用中容易获得的是无标记数据,本文提出利用无标记数据提高泛
化能力的 ILP 算法—UDBILP 。UDBILP 首先利用初始标记数据和背景知识初始化
三个 ILP 分类器,然后迭代地用无标记数据对三个分类器进行精化,即如果两个分
类器对一个无标记数据的标记结果一致,则在一定条件下该数据将被标记给另一个
分类器作为新的训练数据。标准数据集实验结果表明 UDBILP 能够利用无标记数据
提高泛化能力,并且算法最终分类错误率低于 NFOIL ,KFOIL 和 ALEPH 系统。网
页分类应用实验结果表明 UDBILP 能够利用无标记网页提高网页分类性能,并且算
法最终分类性能优于 Naïve Bayes ,Co-training 和 ICT-ILP 。
(2 )提出结合关系实例学习的归纳逻辑程序设计算法
同传统半监督学习算法一样,UDBILP 算法在利用无标记数据迭代学习过程中,
可能存在误标记数据,这些误标记数据影响泛化能力。本文进一步提出结合关系实
例学习(Relational Instance Based Learning, R
文档评论(0)