- 1、本文档共68页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
国内图书分类号:TP 301.6
国际图书分类号:681.3.06
工学硕士学位论文
惰性学习中实例选择研究与应用
硕 士 研 究 生: 唐武
导
师: 郭茂祖教授
申 请 学 位: 工学硕士
学 科 、 专 业: 计算机科学与技术
所 在 单 位: 计算机科学与技术学院
答 辩 日 期: 2007 年 7 月
授予学位单位: 哈尔滨工业大学
Classified Index: TP 301.6
U.D.C.: 681.3.06
Dissertation for the Master Degree of Engineering
RESEARCH AND APPLICATION OF
INSTANCE SELECTION FOR LAZY
LEARNING
Candidate:
Supervisor:
Academic Degree Applied for:
Speciality:
Affiliation:
Date of Defence:
Tang Wu
Prof. Guo Maozu
Master of Engineering
Computer Science and
Technology
School of Computer Science and
Technology
Degree-Conferring-Institution: July,2007
Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘
要
惰性学习不同于传统的急性学习,它具有训练代价少、假说空间丰富、
渐进学习能力强、能进行增量学习等优点,因而被广泛应用于数据挖掘和网
络信息处理等领域。然而由于惰性学习在分类查询实例时,需要计算查询实
例与所有存储实例的距离,因而存在查询代价大的缺点。为了解决这个问
题,在惰性学习诞生后不久,就出现了第一个实例选择算法,直至今天仍不
断有新的实例选择算法出现。可见实例选择算法是提高惰性学习性能的重要
方法,这同时也反映出现有实例选择算法仍有不足。为此,本文展开了如下
研究。
首先,进行了实例的特定邻域的分析。本文归纳和总结了一类经典的实
例选择算法的共同点:它们都使用一种由实例的最近异类实例限定的特定邻
域,并且显式或隐式地用到由这个特定邻域得到的两个同类实例集。可见这
个特定邻域和这两个同类实例集在实例选择中有着重要作用。然而这些算法
都忽视了限定邻域的最近异类实例在实例选择中的重要作用。本文由此提出
了两个新的集合:最近异类实例集和异类实例覆盖集。然后分析了这两个集
合在实例选择的作用,由此设计了一种边界实例选择算法(BIS)。最后在
二维模拟数据集和 UCI 数据集上进行了实验,实验结果表明,BIS 算法能
较大量地约简实例存储量,并在很多数据集上取得较好的分类精度,但是在
部分数据集上得到的选择集的分类精度不够理想。这也促使本文从更深层
次——实例的分类性能上分析实例选择问题。
其次,进行了实例分类性能评价函数的研究。由于经典的算法中没有考
虑实例覆盖交叠的情况,对实例的分类性能的评价不够精确,因此本文分析
和使用了更精确的相对同类实例覆盖来评价实例在分类同类实例的潜在贡
献。同时,由于实例的最近异类实例集和异类实例覆盖集也存在交叠的情
况,因此本文分析和定义了相对异类实例覆盖来精确地评价实例在维护分类
边界方面的贡献。然后,同时从同类实例的角度和异类实例的角度综合考
虑,定义了更精确和全面的实例分类性能评价函数,以此作为设计实例选择
算法的基础。
再次,进行了实例选择算法的设计。针对直接使用实例分类性能函数进
行实例选择时,需要优化分类性能阈值选择的问题,本文设计了一种一致子
集的实例选择方式,避开了这个问题。由此设计了基于实例分类性能的一致
-I-
哈尔滨工业大学工学硕士学位论文
子集实例选择算法(IPECSS)。然后,根据 IPECSS 算法的特点,通过实验
系统地分析了 IPECSS 算法的性能,并在二维模拟数据集和 UCI 机器学习数
据库中的 32 个数据集上与经典的实例选择算法进行了实验比较。实验结果
表明,IPECSS 算法能在大幅度约简实例集的存储量的同时,保持着与训练
实例集相同或更好分类精度,并较大地提高了分类效率。
最后,针对惰性学习在协同过滤中存在的分类效率和分类精度不够理想
的问题,本文将 IPECSS 算法应用到协同过滤系统中,在应用中检验了
IPECSS 算法的性能。
关键词
惰性学习;实例选择;分类性能;一致子集
- II -
哈尔滨工业大学工学硕士学位论文
Abstract
Lazy learning is distinct from traditional eager lea
您可能关注的文档
- 柏拉图“Idea(Form)”:一种可能超越论存在论.doc
- 半桥DC-DC开关变换器自适应控制研究.doc
- 大庆化工二厂员工绩效考核优化研究.doc
- 大学新校区校园文化建设的的研究.doc
- 大学英语教师信念取向及差异的研究—以山东省2所高校为例.doc
- 邓小平思想政治教育理论及当代价值的研究.doc
- 低雷诺数圆管突扩流场数值模拟及阻力特性分析.doc
- 低速走丝线切割机床电极丝恒速恒张力控制.doc
- 低温生活污水化学-生物絮凝强化一级处理试验研究.doc
- 低温生活污水脱氮除磷技术研究.doc
- 场地脚手架工程施工方案(3篇).docx
- 2024年浙江省丽水市松阳县玉岩镇招聘社区工作者真题及参考答案详解一套.docx
- 2024年河南省郑州市惠济区古荥镇招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市淳安县文昌镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省台州市三门县小雄镇招聘社区工作者真题带答案详解.docx
- 2024年浙江省宁波市余姚市河姆渡镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年浙江省丽水市景宁畲族自治县雁溪乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省杭州市临安市板桥乡招聘社区工作者真题及答案详解一套.docx
- 2024年湖北省宜昌市点军区土城乡招聘社区工作者真题及答案详解一套.docx
- 2024年浙江省台州市路桥区桐屿街道招聘社区工作者真题附答案详解.docx
最近下载
- 煤矿一通三防PPT课件.pptx VIP
- 误吸预防与护理课件(1).pptx VIP
- 深圳清华实验学校语文新初一分班试卷.doc VIP
- 系列电动缸内容简介2特点规格产品手册18942et.pdf VIP
- 风湿免疫学课件.pptx VIP
- JVC摄像机EX-A10UF用户手册.pdf
- 高中数学 第一章 常用逻辑用语 1.3 充分条件、必要条件与命题的四种形式 1.3.1 推出与充分条件、必要条件课件 新人教B版选修1-1课件.ppt VIP
- 深圳清华实验学校新初一分班语文试卷.doc VIP
- 心肺复苏操作培训课件.ppt VIP
- 2025年高考复习之小题狂练(语言文字运用):语用2(30题).doc VIP
文档评论(0)