基于随机森林的正例与未标注学习.pdfVIP

下载本文档

36
0
约2.09万字
约 6页
2017-08-10 发布于湖北
举报
版权申诉

基于随机森林的正例与未标注学习.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于随机森林的正例与未标注学习.pdf

2014年 12月计算机工程与设计 Dec．2014 第35卷第 12期 COMPUTER ENGINEERING AND DESIGN VoL35 No．12 基于随机森林的正例与未标注学习邵强，张阳+，蔡晓妍 (西北农林科技大学信息工程学院，陕西杨凌 712100) 摘要：为使用正例与未标注数据训练分类器 (positiveandunlabeledlearning，PU learning)，提出基于随机森林的PU学习算法。对POSC4．5算法进行扩展，在其生成决策树的过程中加入随机特征选择；在训练阶段，使用有放回抽样技术对 PU数据集抽样，生成多个不同的PU训练集，并以其训练扩展后的POSCA．5算法，构造多棵决策树；在分类阶段，采用多数投票策略集成各决策树输出。在 UCI数据集上的实验结果表明，该算法的分类性能优于偏置支持向量机算法、 POS4．5算法和基于装袋技术的POSC4．5算法。关键词：正例与未标注学习；决策树；随机森林；集成学习；偏置支持向量机中图法分类号：TP391 文献标识号：A 文章编号：1000—7024 (2014)12—4329—06 Positiveandunlabeledlearningbasedonrandom forest SHAOQiang，ZHANGYang+，CAIXiao-yan (CollegeofInformationEngineering，NorthwestAgricultureandForestryUniversity，Yangling712100，China) Abstract：Tousepositiveandunlabeledexamplestotraintheclassifier(PU learning)，analgorithm basedontherandom forest waspropose ThePU decisiontreealgorithm POSCA．5wasextendedtOdea1withtherandom featureselectionwhenatreewas growing．Inthetrainingphrase，samplingwithreplacementontheoriginalPU datasetwasadoptedtOgeneratemultipledifferent PU trainingdatasetsandmultipletreesweretrainedonthesedatasetsusingextendedPOSAC ．5．Intheclassificationphrase，the outputsofthetrainedtreeswereaggregatedusingthemajorityvote．ExperimentalresultsonUCIdatasetsshow thattheclassi— ficationperformanceofthemethodproposedisbetterthanthatofthebiasedsupportvectormachine，thePOSCA．5andthebag— gingPOSCA．5． Keywords：positiveandunlabeledlearning；decisiontree；random forest；ensemble1earning；biasedsupportvectormachine 数据中找出正例与负例I2]，这一步根据具体的应用领域采 0 引言用启发式策略；第二步以正例和从未标注数据中抽取的正传统的两分类算法需要使用全标注的训练数据训练分例和负例作为输入，使用已有的监督学习算法训练分类模类模型。然而，在现实中数据通常是未标注，让人类专家型，第二类算法是对已有的监督学习算法进行改造，使其对数据进行标注需要