惰性学习中实例选择研究与应用.doc

  1. 1、本文档共68页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国内图书分类号:TP 301.6 国际图书分类号:681.3.06 工学硕士学位论文 惰性学习中实例选择研究与应用 硕 士 研 究 生: 唐武 导 师: 郭茂祖教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 计算机科学与技术学院 答 辩 日 期: 2007 年 7 月 授予学位单位: 哈尔滨工业大学 Classified Index: TP 301.6 U.D.C.: 681.3.06 Dissertation for the Master Degree of Engineering RESEARCH AND APPLICATION OF INSTANCE SELECTION FOR LAZY LEARNING Candidate: Supervisor: Academic Degree Applied for: Speciality: Affiliation: Date of Defence:  Tang Wu Prof. Guo Maozu Master of Engineering Computer Science and Technology School of Computer Science and Technology Degree-Conferring-Institution: July,2007 Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘  要 惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、 渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网 络信息处理等领域。然而由于惰性学习在分类查询实例时,需要计算查询实 例与所有存储实例的距离,因而存在查询代价大的缺点。为了解决这个问 题,在惰性学习诞生后不久,就出现了第一个实例选择算法,直至今天仍不 断有新的实例选择算法出现。可见实例选择算法是提高惰性学习性能的重要 方法,这同时也反映出现有实例选择算法仍有不足。为此,本文展开了如下 研究。 首先,进行了实例的特定邻域的分析。本文归纳和总结了一类经典的实 例选择算法的共同点:它们都使用一种由实例的最近异类实例限定的特定邻 域,并且显式或隐式地用到由这个特定邻域得到的两个同类实例集。可见这 个特定邻域和这两个同类实例集在实例选择中有着重要作用。然而这些算法 都忽视了限定邻域的最近异类实例在实例选择中的重要作用。本文由此提出 了两个新的集合:最近异类实例集和异类实例覆盖集。然后分析了这两个集 合在实例选择的作用,由此设计了一种边界实例选择算法(BIS)。最后在 二维模拟数据集和 UCI 数据集上进行了实验,实验结果表明,BIS 算法能 较大量地约简实例存储量,并在很多数据集上取得较好的分类精度,但是在 部分数据集上得到的选择集的分类精度不够理想。这也促使本文从更深层 次——实例的分类性能上分析实例选择问题。 其次,进行了实例分类性能评价函数的研究。由于经典的算法中没有考 虑实例覆盖交叠的情况,对实例的分类性能的评价不够精确,因此本文分析 和使用了更精确的相对同类实例覆盖来评价实例在分类同类实例的潜在贡 献。同时,由于实例的最近异类实例集和异类实例覆盖集也存在交叠的情 况,因此本文分析和定义了相对异类实例覆盖来精确地评价实例在维护分类 边界方面的贡献。然后,同时从同类实例的角度和异类实例的角度综合考 虑,定义了更精确和全面的实例分类性能评价函数,以此作为设计实例选择 算法的基础。 再次,进行了实例选择算法的设计。针对直接使用实例分类性能函数进 行实例选择时,需要优化分类性能阈值选择的问题,本文设计了一种一致子 集的实例选择方式,避开了这个问题。由此设计了基于实例分类性能的一致 -I- 哈尔滨工业大学工学硕士学位论文 子集实例选择算法(IPECSS)。然后,根据 IPECSS 算法的特点,通过实验 系统地分析了 IPECSS 算法的性能,并在二维模拟数据集和 UCI 机器学习数 据库中的 32 个数据集上与经典的实例选择算法进行了实验比较。实验结果 表明,IPECSS 算法能在大幅度约简实例集的存储量的同时,保持着与训练 实例集相同或更好分类精度,并较大地提高了分类效率。 最后,针对惰性学习在协同过滤中存在的分类效率和分类精度不够理想 的问题,本文将 IPECSS 算法应用到协同过滤系统中,在应用中检验了 IPECSS 算法的性能。 关键词  惰性学习;实例选择;分类性能;一致子集 - II - 哈尔滨工业大学工学硕士学位论文 Abstract Lazy learning is distinct from traditional eager lea

您可能关注的文档

文档评论(0)

tkhyxy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档