- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于类别重要度的MIMLBoost改进算法.doc
基于类别重要度的MIMLBoost改进算法 摘要:针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法。该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TFIDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化。在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、 coverage、 ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率。 关键词:多示例多标记;MIMIBoost算法;TFIDF算法;聚类;类别不平衡 中图分类号: TP181 0引言 多示例多标记(MultiInstance MultiLabel, MIML)学习[1-2]是基于对象的歧义性[3]而提出的一种学习框架,是对多示例学习和多标记学习的扩展。在该学习框架下,真实世界的对象由包含多个示例的示例包所描述,且其对应的类别标记不再唯一,而是多个标记组成的集合。例如在文档分类中,一篇文档可划分为不同的章节段落,每一个章节段落都可用一个示例来描述,且一篇文档既可认为属于“体育”类,也可认为属于“娱乐”类,具有多种类别;又比如一幅图像可划分为几个区域,每个区域都可用一个示例来表示,且根据图像具有的不同内容,可将其归为多个类别等。 学习系统通过对训练集中具有多个标记的示例包进行学习,以尽可能地预测未知对象的类别标记集合。为了发挥MIML框架的能力,研究者已设计了多种有效的算法,如MIMLBoost[1-2]、MIMLSVM[1-2]、INSDIF[4]、M3MIML[5]等算法。其中,较直观的方法是把多示例多标记问题以多示例学习[6]或多标记学习[7]为桥梁,退化为传统的监督学习问题进行求解,代表性的有MIMLBoost算法和MIMLSVM算法。其中,MIMLBoost算法通过示例包与类别标记的拼接,实现多示例多标记样本向多示例单标记样本的退化。这种方法简捷方便,而且效率高,在场景分类与文本分类上取得了比多示例学习框架和多标记学习框架更好的学习效果。 1MIMLBoost算法思想 设χ为示例空间,Y表示标记空间,数据集D (X1,Y1),(X2,Y2),…,(Xm,Ym) ,其中: Xi是χ的一组示例 xi1,xi2,…,xini ,xij∈χ(j 1,2,…,ni)为第i个包的第j个示例,YiY为Xi的一组合适的类别标记, yi1,yi2,…,yiki ,ni为Xi所含示例的个数,ki为Yi所含标记的个数。多示例多标记学习的目标是得到f:2χ→2Y,MIMLBoost算法以多示例学习为桥梁,将学习目标转换为fm:2χ×y→ -1,+1 ,然后在进一步转换为传统监督学习问题。具体做法是:对示例空间和标记空间进行拼接,将每个示例包Xi与类别标记y拼接起来,原样本(Xi,Yi)就变为|Y|个多示例单标记样本 ([Xi,y],φ [Xi,y])|y∈Y ,其中, [Xi,y]包含ni个示例 (xi1,y),(xi2,y),…,(xini,y) ,φ[Xi,y] +1当且仅当y∈Yi,否则φ[Xi,y] -1。上述转换过程完成后,再利用文献[8]中的多示例学习算法MIBoosting进行求解。以上就是MIMLBoost算法的基本过程,其在场景分类及文本分类问题上取得了良好的学习效果。 实际上,在大多数问题中,由于获取正例的成本比反例高,所以训练集中具有多个类别标记的样本所占比例并不高。那么,大部分样本在被拼接转化后,得到的反包将多于正包。例如,对于一个多示例多标记样本(X1,Y1),假设标记空间含有5个类别标记 y1,y2,y3,y4,y5 且Y1 y11,y12 ,则此样本转化后为:([X1,y1],+1)、([X1,y2],+1)、([X1,y3],-1)、([X1,y4],-1)、([X1,y5],-1),其中反包3个、正包2个。这就使得整个训练集样本转化为多示例单标记样本后,出现的反包将远远多于正包,造成类别间的不平衡[9],如此训练得到的分类器具有很大的偏向性,影响算法的性能。 针对这一问题,本文采用人工降采样思想,引入类别标记重要度概念,通过聚类和TFIDF算法[10]评估每个标记在各个聚类簇中的重要度,并以聚类簇为单位,去除重要度较低的类别标记,来减少拼接过程出现的反包样本,使转化后的训练集样本类别趋于平衡,降低噪声出现的概率,提高算法的性能。 2MIMLBoost算法改进 MIML
您可能关注的文档
最近下载
- 第三单元 物质构成的奥秘跨学科实践活动2制作模型并展示科学家探索物质组成与结构的历程》课件-人教版2024九年级化学上册.pptx VIP
- 2024年四川广安爱众股份有限公司人员招聘考试题库及答案解析.docx VIP
- 英格索兰空压机.ppt VIP
- NBT 47015 2011 压力容器焊接规程.pdf VIP
- 地铁车站大客流应急组织.pptx VIP
- 人教版六年级数学上册第三单元《分数除法》单元测试卷 (含答案).pdf VIP
- 2023年四川广安爱众股份有限公司招聘笔试题库及答案解析.docx VIP
- 2023四川广安爱众股份有限公司招聘见习人员2人笔试备考试题及答案解析.docx VIP
- 2023四川广安爱众股份有限公司对外招聘笔试备考题库及答案解析.docx VIP
- 能源管理体系钢铁企业认证要求.pptx VIP
文档评论(0)