基于神经网络的不平衡数据分类方法研究.docVIP

下载本文档

188
0
约3.5千字
约 5页
2017-08-15 发布于广东
举报
版权申诉

基于神经网络的不平衡数据分类方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于神经网络的不平衡数据分类方法研究.doc

　　基于神经网络的不平衡数据分类方法研究 --第1章绪论 1.1研究背景与意义分类是机器学习、数据挖掘等领域内非常重要的一个研究内容，在现实生活中有着广泛的应用：基因表达数据分析、医疗诊断、图像识别和故障检测等。如何通过对己知经验数据进行分析从而精准预测未知数据成为研究的重点。目前，已经有了一些相对成熟的分类方法，比如：k-近邻、神经网络、支持向量机等方法，这些方法对分布均勾的数据集显示出很好的效果，并获得了广泛的应用。但是，在现实生活中，所获取到的数据集往往出现类别间样本数不平衡、严重重叠和噪声干扰等特点，使传统的分类器及其学习算法无法达到预期效果。数据集中各类之间的不平衡通常伴随着各类在样本空间上的重叠，研究表明，数据集的各类之间样本的不平衡不是造成分类器分类准确率不高的唯一因素，类之间的样本在样本空间上的重叠也是影响分类器性能的原因之一。有些学者甚至认为：不管在数据集中各类之间的样本平衡与否，数据集的类之间样本重叠现象都会给分类器的性能带来很大的影响。因此，在研究不平衡数据集学习问题时，也应该考虑到各类在样本空间上的重叠问题。如何缓解甚至消除各类在样本空间上的重叠给传统分类器性能带来的影响，也是亟需解决的问题。 1.2论文的主要工作本文针对不平衡学习问题，从数据集和算法两个层面入手，分析了不平衡数据集对现有分类器的影响，特别是对神经网络性能的影响，重点研究了基于神经网络的不平衡数据分类技术。论文的主要研究工作有以下几个方面：（1）分析不平衡数据集对传统分类器特别是神经网络泛化能力的影响。传统的下采样方法不能有效地选择具有代表性的大类样本，从而使一些重要的信息丢失。本文从数据集层面给出了一种面向不平衡数据集的主动下采样方法，该方法可以自动有效的去除远离边界的大类样本，而且能够保持数据集整体的分布特性，从而改善整个训练数据集的不平衡度，使之更适合传统的分类学习算法。以BF算法为准分类器的实验证明，与其他采样算法相比，该方法能够有效地提高小类的识别率，同时兼顾大类的准确率。（2）数据清理技术经常用以解决由釆样方法而引入的类之间样本的重叠问题，但现有的数据清理方法虽然能够减少类之间样本的重叠问题对分类器的影响，但也导致误删除了一些不在重叠区域的样本，并且一些边界噪声由于现有数据清理方法过于苟刻的规则而没有被删除。本文借鉴离群点检测算法的思想，提出边界噪声因子（的概念，以此来表示样本成为边界噪声的程度，继而给出基于的数据清理算法，结合采样方法来解决不平衡和类之间样本的重叠问题。通过和传统采样方法、数据清理方法的实验比较证明该方法的有效性。（3）分析了基因表达数据的特点，将面向不平衡数据集的智能极限学习机和剪枝加权极限学习机应用于基因表达数据的分析中，通过对急性白血病数据集、结肠癌数据集、小圆蓝细胞肿瘤数据集和蛋白质数据集的分类分析，验证了这些方法的有效性。第2章面向不平衡数据集的主动下采样算法设计与实现 2.1引言机器学习研宄的实质就是如何使算法能够根据已经学习过的事物进行分析总结，以便对未知的事物进行判断。对于有监督学习来说，其中很重要的一个步骤就是选择合适的训练数据集，在训练数据集上训练学习算法，使其掌握规律以便对未知的样本进行预测或者分类。传统的分类算法通常假设训练数据集中的各类样本之间的分布是均衡的，因此设计的算法在平衡数据集上的性能是非常好的。但是，事实上数据集并不总是均衡的，在现实中得到的数据总是因为一些其他因素而导致在数量和分布上不均衡，不平衡的训练数据集影响了传统分类器的性能。针对两类问题来说，正如第章指出的，不平衡数据的涵义包括两个方面：（1）数量的不平衡：一类拥有的样本数量非常多，称之为多数类或者大类；另一类所拥有的样本数相对比较少，称之为少数类或者小类；（2）分布的不平衡：两类拥有相同的样本数，其中一类拥有的样本空间分布集中，称之为大类；而另一类的样本空间分布相对比较分散，称之为小类。由于传统的分类器是以整体准确率为准则来进行分类的，在各类样本分布均匀的数据集上效果很好，但是在处理不平衡数据集时，仍然使用整体准确率作为评价指标的话，就使得分类器为了达到高的整体准确率，被大类的识别率所影响，分类性能大大下降，一些属于小类的样本数据被错分为大类。近年来，在不平衡学习问题上涌现了大量的研宄，并给出了很多解决方法；这些方法概括起来，可以分为三类：（1）改进训练数据集的不平衡分布，例如：上采样方法、下釆样方法、混合采样等；（2）改进经典算法：对当前比较成熟的分类器算法，采用优化参数、对各类样本赋不同的错分代价、设计面向不平衡数据集的新算法等；（3）改进评价体系。本章提出一种新的主动下采样算法来改善训练数据集类样本之间的不平衡，实验证明该算法有利于提高小类的识别率，同时也保持了较高的整体识别率