基于半监督学习的不平衡数据分类算法与应用 .pdfVIP

基于半监督学习的不平衡数据分类算法与应用 .pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于半监督学习的不平衡数据分类算法与应用

半监督学习方法能够利用有限的有标签数据,并结合大量的无标签数据挖掘

出有用的信息,在诸多领域得到了广泛的应用。然而传统的半监督分类方法大多

建立在数据集中各个类别样本数相等的假设基础上,一旦数据集中各个类别样本

数不等,分类边界将偏向于拥有样本数少的类别,(此类别称之为弱势类,而拥有

样本数多的类别称之为强势类),导致强势类分类空间增大,弱势类样本难以被识

别出来,分类性能受到严重影响。

实际应用中,人们往往更关注弱势类样本的识别率,如森林火灾监测发生火

灾的温度序列相比正常情况要少得多,然而识别火灾温度序列是人们更为关心的;

社交网络隐私保护应用中,恶意用户的识别要比可信任用户更重要,然而恶意用

户的数量远远小于可信任用户的数量。因此,解决此类问题具有很强的理论意义

和实用价值。

本文将各个类别样本数不相等的数据集分类称为不平衡的数据集分类。研究

表明,不平衡数据集分类方法大多在监督学习的环境下,而在半监督学习领域内

关于不平衡数据集分类的研究甚少。

不平衡数据集分类方法可以通过算法层面或数据层面去解决。算法层面主要

通过改变现有算法的策略以适应对不平衡数据集的分类;数据层面主要通过数据

集重采样的方法来改变数据集的样本分布,以构造平衡的数据集,来适应现有算

法。

因此,本文的研究重点为:根据现有的半监督分类算法,在算法层面提出了

LMN算法,在数据层面提出了INNO算法,来解决在半监督学习环境下的不平衡数

据集的分类问题,明显提高了对不平衡数据集的分类精度。并利用提出的算法与

经典的半监督分类算法相结合,有效的解决了森林火灾监测和社交网络隐私保护

两个实际问题。

论文主要研究工作如下:(1)首先从算法层面出发,由于传统的基于图的半监

督分类方法在对不平衡数据集分类时,各个类别在标签传递过程中的信息总量不

等,导致分类边界倾斜。针对此问题,本文提出LMN算法,即用标签“平衡因子”

来构造规范化的标签矩阵,将每个类的标签总信息量归一,以保证各个类拥有的

初始标签信息总量相等,进而消弱了强势类的标签信息带来的分类倾向。

(2)然后从数据层面考虑,由于传统的重采样方法在分类边界构造人工样本,

而半监督学习环境中,只拥有稀少的有标签数据难以判断分类边界。针对此问题,

考虑到半监督学习环境中包含大量的无标签数据,本文提出迭代最近邻过采样标

签平衡方法(INNO算法),在分类开始前,迭代地从无标签数据集中选出与所有弱

势类的标签数据距离最近的样本,同时避开可能处于分类边界的样本,然后将其

添加到有标签数据的集合中,以防止引入错误分类给后续分类算法带来错误累积,

以保证分类算法输入的数据集是平衡的或者近似平衡的。

(3)另外,在基于边界采样的主动学习的过程中,每次挑选距离分类边界最近

的样本,然后交给专家系统进行标注,然而选择的样本可能与已知的样本区域距

离较近,这样的样本可能会给分类器带来重复的分类信息。针对此问题,本文通过

相似性检测算法来避免选择局部集中的样本,更好地扩展了样本的选择区域,一

定程度上解决了不平衡数据集的分类问题。

(4)传统森林火灾监测的识别算法受限于能源消耗、处理效率和内存大小限

制。此外,由于火灾出现的概率要远远小于正常情况,因此,数据集存在着明显的

不平衡性。

本文首先将温度变化序列概括为四种不同的变化曲线(即为分类目标),然后

将传感器检测的温度序列,按照时间间隔划分成相同长度的子序列,然后利用本

文提出的INNO方法,对未知的温度子序列分类,提高了数据集不平衡情况下对森

林火灾的识别率。(5)在线社交网络中好友的可信任程度是用户首要关注的问题,

针对如何避免个人信息被恶意用户窃取和泄露,考虑到可信任用户和恶意用户数

量的不平衡性,以及朋友关系的可传递性,利用本文提出的LMN方法,解决了可信

用户和恶意用户的数量不平衡带来的影响,消除了现有的用户可信性推断算法对

网络通路的限制,并且在用户可信性的推断正确率方面取得了一定的优势。

文档评论(0)

180****4714 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档