- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于标签相关性的多标签分类算法
霄1,周李威1,陈耿2,朱玉全1王(1.江苏大学计算机科学与通信工程学院,江苏镇江212013;2.南京审计学院信息科学学院,南京211815)摘要:针对基于概率统计的ML-kNN算法只能对每个独立的标签进行分析,忽略了真实世界中标签间的相关性,提出了一种联系标签相关性的ML-kNN算法(S-ML-kNN)。该方法对训练集进行扩展,并按照标签间的二阶组合来构造新的标签,融合了标签之间的相关性。实验结果表明,S-ML-kNN算法优于ML-kNN算法。关键词:多标签;标签相关性;kNN;二阶中图分类号:TP391;TP301.6文献标志码:A文章编号:1001-3695(2014)09-2609-04doi:10.3969/j.issn.1001-3695.2014.09.011Correlationlabel-basedmulti-labelclassificationalgorithmWANGXiao1,ZHOULi-wei1,CHENGeng2,ZHUYu-quan1(1.SchoolofComputerScience&TelecommunicationsEngineering,JiangsuUniversity,ZhenjiangJiangsu212013,China;2.SchoolofInfor-mationScience,NanjingAuditUniversity,Nanjing211815,China)Abstract:TheonlyML-kNNalgorithmbasedonprobabilityandstatisticsforeachindividualtaganalysis,ignoringthecorre-lationbetweenthetagsintherealworld,thispaperproposedaML-kNNalgorithmwiththelabelcorrelation(S-ML-kNN),themethodextendedthetrainingsetandfollowthelabelbetweenthesecondcombinationtoconstructanewlabel,theintegrationofthecorrelationbetweenlabels.Experimentalresultsshowthat,S-ML-kNNalgorithmoutperformsML-kNNalgorithm.Keywords:multi-label;labelcorrelation;kNN;secondorder复杂度。ML-kNN[12]算法是一种简单且非常有效的解决多标签问题的方法,它利用最大化后验原则来确定待预测样本的标签集。然而,由于它仅针对每一个独立标签来统计其在近邻中被包含的数量,却忽略了各个标签之间可能存在的相关性。真实世界中,标签与标签之间往往不是相互独立,而是有一定联系的。因此,在多标签学习中,可以利用标签之间的相关性来辅助解决问题。例如,如果一幅图像包含标签“武器”和“军人”,那么该图片包含标签“军队”的可能性就会比较大。因此,如何充分利用标签间的相关性是构造具有强泛化能力多标签学习系统的关键。然而上述方法均未能很好地利用标签之间潜在的语义相关性和共现性知识。为了解决存在的这一问题,本文利用从文本检索中受启发而得到的词与词的共现概率来对ML-kNN算法进行改进。S-ML-kNN算法把标签相关性强弱融合到原始的ML-kNN中,由比较最终的后验概率来判断标签的包含情况。与单标签学习相比,多标签学习是一种更符合真实世界客观规律的方法,尤其在文本分类[1~3]、图像分类[4,5]、生物基因功能分类[6]等领域有着广泛的应用。对于多标签分类问题,目前主要的解决途径[7]有问题转换和算法适应。问题转换法的主要思想是通过对已知的训练集进行处理,将多标签学习问题转换为其他已知的学习问题进行求解。BR(binaryrelevance)[8]方法是一种典型的基于数据分解的方法,它把每一个标签的预测视为一个独立的单分类问题,并为每一个标签训练一个独立的分类器,用全部的训练数据对每个分类器进行训练。这种方法简便易行,但忽略了标签之间的相互关系,预测结果也往往难以令人满意。CLR[9]方法加入了人工校准标签来区分相关标签和不相关标签,但是当数据集中的类别标签很多的时候,这种方法构造出的子分类器过多,从而增加了算法的复杂度,也会对预测结果产生很大影响。与之前的方法相比较,RAkEL[10]方法考虑到了标签之间的依赖关系,且弥补了LP方法可能产生偏斜数据的不足。然而这种方法想要达到最佳效果需要大量数据集,必须要对输入参数如子集大小、阈值等进行内部交叉检验(internalcrossvalida-tio
您可能关注的文档
- 《过秦论》课件新.ppt
- 《隧道检测实训》课程标准.doc
- 《追风筝的人》色彩分析.ppt
- 一、80吨纯水配置.doc
- 《金属丝造型课件》小学劳动技术北京版五年级下册11113.ppt
- 《长江之歌课件》初中音乐人音版七年级下册5693.ppt
- 一个手机短信模拟系统_UML建模和C_实现.doc
- 一个自定义文件传输协议的设计与实现.docx
- 一、 建筑通风系统安装与识图.ppt
- 一个抚慰身心的场所_梅西癌症中心康复花园.docx
- 2025年四川省万源市事业单位考试(中小学教师类D类)职业能力倾向测验试卷一套.docx
- 2025年山西省介休市事业单位考试(中小学教师类D类)职业能力倾向测验重点难点精练试题含答案.docx
- 黑龙江省五大连池市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库及答案一套.docx
- 2025年吉林省敦化市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题推荐.docx
- 2025年山西省古交市职业能力倾向测验事业单位考试(中小学教师类D类)试题完美版.docx
- 2025年山西省侯马市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题1套.docx
- 2025年广东省信宜市职业能力倾向测验事业单位考试(中小学教师类D类)试题参考答案.docx
- 黑龙江省宁安市事业单位考试(中小学教师类D类)职业能力倾向测验试卷带答案.docx
- 2025年云南省腾冲市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题及答案1套.docx
- 福建省龙海市事业单位考试(中小学教师类D类)职业能力倾向测验强化训练试题集带答案.docx
最近下载
- 六年级数学《圆的对称性》C1跨学科学习活动设计学习活动方案学生成果及点评.pdf VIP
- 高低压变配电工程施工招标文件.pdf VIP
- 变电站施工合同协议书范本.docx
- 《分级护理制度》课件.ppt VIP
- 2024年检验类之临床医学检验技术(士)真题精选附答案 .pdf VIP
- J B∕T 13202.4-2017 -柴油机 颗粒捕集系统 第4部分:颗粒捕集器技术条件.pdf
- 2.蜗牛的坚持 课件(共19张PPT内嵌视频) 人教版一年级美术上册02.ppt.pptx VIP
- 软科2024年中国大学排名 .pdf VIP
- DB37_T 5174-2021 山东省沿海地区建筑工程风压标准.docx
- 小学跨学科教学的评价与反馈.docx
文档评论(0)