- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
使用旋转森林分类癌症
【摘要】我们处理使用新提出的多个分类器系统(MCS)的微阵列数据集为基础的癌症分类,为旋转森林。尽我们所知,这是第一次旋转森林已经应用于微阵列数据集的分类。在旋转森林的框架,需要一个线性变换方法对项目数据到新的特征空间中的每个分类器,并
然后将基分类被训练在不同的新的空间,以提高基分类的两个精度,并在分集集成系统。主成分分析(PCA),非参数判别分析(NDA)和随机突起(RP)的施加以特色在原有旋转林改造。在本文中,我们使用独立成分分析(ICA)作为一种新的转型。
关键词:癌症分类科幻阳离子; DNA微阵列数据集;多个分类器系统(MCS);旋转森林;线性变换方法
1.介绍
与微阵列技术的发展,它是POS-sible对于那些诊断和分类某些特定的易拉罐核证减排量直接基于DNA微阵列数据集。到现在为止,越来越多的新的预测,分类音响阳离子和集群技术正被用于微阵列数据的分析。为例如,戈卢布等。 [1]利用最近邻方法分类科幻ER方法的急性髓细胞淋巴瘤分类科幻阳离子(AML)和急性白血病淋巴瘤(ALL)的儿童。和一些研究已经报道了关于微的应用分子分类科幻阳离子阵列基因表达数据分析癌症。?简言之,微阵列实验导致之间TU-MORS分子变化的一个更完整的理解,并因此以一音响仪,更可靠的分类音响阳离子。如何有史以来,微阵列数据集的一个特征是,收集的肿瘤样本的数目趋于比基因的数量要少得多。也就是说,对于前者的数目往往是几十或几百的量级,而微阵列数据集通常包含数千个基因的每个芯片上。同时,芯片的数据集通常包含每个芯片上数千个基因。因为它是一个典型的“大P,小N”的问题[4],对于基因表达数据分析中英法fi古老而EF-fective方法仍然是一个挑战。
目前各种算法和数学模型已经提出了用于管理,分析和interpre-塔季翁微阵列数据集。和许多研究人员仍在致力于不同的线性或非线性CLAS-SI网络阳离子系统的设计。然而,应当指出,一个单一的分类音响阳离子系统不能总是导致高分类音响阳离子精度。相反,多个分类器系统(MCS)被证明是在许多网络连接的视场更加精确和鲁棒比优异的单一分类器[5]。
虽然MCS的微阵列数据集分类科幻阳离子应用仍然是一个新的科幻场,最近的一些不同的MCS已经提出来处理微阵列数据分类音响阳离子问题。例如,Dettling等。[6]用于肿瘤分类科幻阳离子的修订提升算法,拉莫净人。 [7]采用随机森林可以同时解决这两个基因的筛选和分类音响阳离子问题,彭[8]专为微阵列数据集预测的SVM集成系统。
旋转森林是新近提出的合奏系统[9]。相比与提出的合奏系统,如袋更改[10],助推[11],随机森林[12],它是更加健壮,因为它总是可以提高精度个别分类器,并在合奏的同时尽我们的知识的多样性,还存在着没有任何文件讨论旋转森林的应用程序的芯片集的预测至今。
旋转森林是建立了一套决策树。对于每一个树,从原始训练集合中提取的引导样品通过构造新的训练集。然后将新的训练集的特征集被随机分成一些子集,这些转化在dividually线性变换方法因此,一个完整的功能集与重建中乐团每个树全部转化功能。由于轴的旋转小可以构建一个完整的不同的树,合奏系统的多样性可以通过改造来保证。最后,所有的树木的输出由平均规则融合。在文献[9,13],主成分分析(PCA),非参数判别分析(NDA)和随机突起(RP)的被采纳作为转化方法。其中,可以发现,基于PCA的旋转森林表现最好的。
当施加旋转森林到微阵列数据集分类音响阳离子,很直观地注意到,独立分量分析(ICA)是一种更有前途的候选与其它的线性变换方法相比。事实上,ICA变换方法已应用于微阵列数据集的分析取得了巨大成功,许多基于ICA的方法已经被提出来处理微阵列数据最近。例如,Liebermeister施加ICA到基因表达数据,用于导出一个线性模型基于隐变量[14];
?Lee等人。 [15]投影微阵列数据转换成统计上独立的组件(IC)的具有线性和非线性的ICA,结果发现ICA优于其它学习算法; Zhang等人。 [16]提取的一组对应于基于ICA的临床使用的一组生物标志物的正常和肿瘤组织中特定网络连接?诊断模式。因此在本文中,ICA也部署为线性变换方法,其以旋转森林的性能贡献将与其他的转化方法进行比较。
为了验证旋转森林的性能,它使用两个公知的微阵列数据集,即评估,乳腺癌数据集[3]和前列腺癌的数据集[17]的分类音响阳离子性能对不同的MCS .The比较是有两种广泛进行部署方法:Bagging [10]和Boosting [11]。
本文的其余部分安排如下。在第2节中,旋转森林的框架进行详细说明。第3节介绍来选择合适的基因分类科幻阳离子滤波器方法,在第4节,实验结果和应的讨论被证实。第5节总结本
文档评论(0)