- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于遗传优化获取微阵列最佳分类规则
基于遗传优化获取微阵列最佳分类规则摘要:基于遗传编程(GP)提出一种最优规则遗传算法(BRGA)对分类规则进行优化的方法,获取最佳分类规则集,此算法可以调整分类器模型的相关参数,在适当增加迭代基础上大幅提高分类的精确度,具有相当的灵活性和可理解性.利用6个基因数据集检验了算法的性能.仿真结果表明,本文提出的算法与其他文献的方法相比,在具有较高分类精确度和稳定性前提下大幅降低了计算复杂度及冗余.
关键词:最优规则遗传算法;微阵列;遗传编程;分类规则;计算复杂度
中图分类号:TP391 文献标识码:A
生物医学研究表明,人类大多数疾病的发病机制,比如癌症,从根本上来说都和基因息息相关.微阵列数据是将样本实验形成的影像转为基因表达矩阵,矩阵行表示基因,列表示类别样本,矩阵中的元素描述不同基因在不同样本的表达水平.
由于微阵列芯片技术[1]获得的基因数据数量远大于样本数量,随着维数的增加,最大的障碍则是在高维特征空间运算时存在的“维数灾难”.微阵列大量基因数据仅为样本分类提供了少数有分类意义的、具有明显特征的基因.因此,在样本分类之前,选择特征基因是至关重要的,这直接影响到之后生成的分类器性能.微阵列分类作为生物指标的探索成为生物信息学一个重要的课题,事实上,由于存在更多的癌症类型和潜在的癌症子类,如果展开肿瘤分类问题到多重肿瘤类别,数据集包含更多的类别和非常少量的样本,问题将变得更具有挑战性.
一些研究报告指出,在基因选择部分使用遗传算法能改进微阵列数据的分类性能[1-2],因此,遗传算法已广泛用于解决包括数据分类的各种难题[3-4].本文提出一种最优规则遗传算法(Best Rule Genetic Algorithm,BRGA),选用一种基于遗传优化的分类算法生成分类规则,用二进制向量表示分类规则,初始化规则集,设定相应的适应度及初始种群的规模,通过变异产生一定数量的最优分类规则.通过实验,使用6个基因表达数据集来验证算法的性能.
微阵列数据分类技术通常包含2部分内容:1)基因选择;2)构建分类器模型.文献[5]在基因选择部分使用排列值计分RBS算法,很好地解释了基因之间的相关性,大幅降低基因矩阵维度,在一定程度上减少了计算复杂性;在构建分类器部分提出了LCR方法,可以用很少的基因构造形成分类规则,提高了算法的可理解性.但分类规则的形成过程仍存在很多不足,如分类器模型中规则形成框架过于缜密,容易导致过拟合,产生庞大规则集的迭代过程相当繁琐,并产生大量冗余的规则,导致计算复杂度较高且算法收敛速度较低.分类器的构建则是整个技术的核心所在,传统的微阵列分类方法有:加权投票(WV)[6],K近邻(kNN)[7],支持向量机(SVM)[8],费舍尔线性判别分析(LDA)[9] ,人工神经网络(ANN)[10],遗传规划(GP)[11],最小二乘逻辑回归[12]和朴素贝叶斯方法[13]等.由于它们仅仅聚焦于分类性能,而不能进一步提供任何医学和生物学依据,导致这些分类算法往往产生僵硬的分类系统,存在稳定性弱和开销大的特征,缺乏可扩展性.决策树算法[14]和随机森林算法[15]基于决策规则产生分类器模型,此类算法获得的分类规则在某种意义上包含了生物体基因之间的相关性,但如果训练样本存在小的差异会导致决策树结构产生大的变化,致使分类器缺乏稳定性,这些分类方法仍然存在很大的局限性.
1 BRGA方法的基本思想
BRGA算法是在遗传优化的基础上,将分类规则集作为种群,使用二进制串表示其中任意一条分类规则,计算对应于基因属性的比较关系的分类规则适应度值,经过若干代的繁殖过程,包括选择、交叉和变异运算,反复迭代优化,获取具有较高适应度的最佳分类规则.
4 结论
本文提出的BRGA算法很好地解决了用微阵列基因表达值构建分类决策规则普遍速度慢的难题,通过调整适合规则的适应度值及相关参数对初始规则集进行优化,该算法能很快收敛于最优分类规则集.采用6个数据集验证了该算法的性能,实验结果表明,BRGA算法具有较高的精确度和极少的分类运算耗时(CPU time).当然,由于实验条件和生物学发展的局限性,该算法有待进一步提高和完善.
参考文献
[1] HENGPRAPROHM S,MUKVIBOONCHAI S,THAMMASANG R,et al.A GAbased classifier for microarray data classification[C]// Proceedings of 2010 International Conference on Intelligent Computing and
原创力文档


文档评论(0)