一种基于先验信息BPSO基因选择方法.docVIP

下载本文档

9
0
约9.39千字
约 17页
2018-08-13 发布于福建
举报
版权申诉

一种基于先验信息BPSO基因选择方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于先验信息BPSO基因选择方法

一种基于先验信息BPSO的基因选择方法　　摘要：针对如何提高所选基因子集的可解释性和分类性能，提出一种耦合先验信息二进制微粒群算法（BPSO）的基因选择方法。基因灵敏度（GCS）信息和基因调控（GR）信息分别耦合进两个相互独立的共享全局最优位置的BPSO过程中，主要利用先验约束进行粒子群初始化、粒子更新、限制最大速度和自适应变异操作。在两个公开微阵列数据集上的实验表明，由于GCS和GR信息的约束，新方法选出的基因数目较少但具有较强的分类能力。　　关键词：基因选择；基因灵敏度；基因调控；二进制微粒群　　DOIDOI：10.11907/rjdk.151385 　　中图分类号：TP301 文献标识码：A 文章编号：1672-7800（2015）007-0036-05 　　0 引言　　基因表达谱数据已经广泛应用于疾病诊断和预测。但是基因表达谱数据具有高维度、小样本的特点，存在大量冗余基因信息。因此，采用基因选择方法去除冗余基因是十分必要的。　　根据基因选择过程中是否有分类器的参与，基因选择方法通常可以分为基于Fliter的方法、基于Warpper的方法和基于Embedded的方法3类[1]。基于Filter的方法通常根据某种规则，给每一个基因作一个重要性度量的排序，从而进行筛选；基于Warpper的方法将分类算法嵌入其中，并不断地反馈分类器的分类准确率作为评价准则，将分类决策和特征选择耦合在一起，该方法的分类效果要比基于Filter的好[2]；基于Embedded的方法将基因子集的搜索和评价过程完全耦合到构建分类器的过程中，所选择的基因具有很低的可解释性。　　Wrapper法因其直接使用分类器分类性能作为特征　　子集的评价标准，从而可以选择出高分类预测率的基因的优点，受到越来越多研究人员的青睐。许多基于群体随机优化的特征子集搜索算法已经被广泛地应用在Wrapper法中，包括：遗传算法（Genetic algorithms，GA）[3]、模拟退火算法（Simulated annealing）[4]、蚁群算法（Ant colony optimization，ACO）[5]和微粒群优化算法（Particle swarm optimization，PSO）等。相比于遗传算法，PSO算法需要调整的参数少，因而简洁、收敛速度更快，更易实现[6]；相比于模拟退火算法，PSO算法更易收敛于全局最优点[7]。二进制微粒群算法（Binary PSO，BPSO）是PSO的一个离散版本，用于处理离散空间的组合优化问题。然而所有PSO算法都容易失去粒子多样性，从而在收敛时陷入局部最优，即“过早熟”现象。其主要原因在于PSO进化过程中随机因素太多，缺乏实际有效的先验信息对粒子的初始化和进化运动进行约束和方向性引导。　　为了有效利用先验信息来指导PSO的粒子进化，提高所选基因子集的识别率，增加所选基因的可解释性，文献[16]提出了耦合GCS信息BPSO的基因选择方法（BPSO-GCSI-ELM）。由于仅考虑一种先验信息，容易出现先验信息过于主导选择过程的现象，且耦合程度不高。本文在BPSO中耦合两种先验信息：基因灵敏度（Gene-to-class sensitivity，GCS）信息[8]和基因调控（Gene interaction regulation，GR）信息，同时选取极限学习机（Extreme learning machine，ELM）[9]作为分类器评价所选的基因子集。实验结果表明，本文提出的方法能够有效而快速地选取具有低冗余度且高识别率的基因子集。　　1 相关理论基础　　1.1 BPSO算法　　Kennedy与Eberhart[10]于1997年提出了二进制粒子群算法（Binary Particle Swarm Optimization ， BPSO）。在该算法中，粒子位置的每一位被限制为1或0，对速度则不作这种限制。BPSO算法并不直接优化二进制变量本身，而是引入模糊函数Sig（x），将粒子的速度转化为二进制变量取值为1的概率。在粒子更新过程中，速度越大，粒子位置取值为1的可能性越大，反之则粒子位置取值为0 的可能性越大。其位置进化公式为：　　表示第t+1次迭代中第i个粒子的第j维的速度，xij（t+1）表示第t+1次迭代中第i个粒子的第j维的位置取1或0的概率，rand（）表示[0，1]之间的一个随机数。　　1.2 极限学习机　　极限学习机是由黄广斌教授在单隐层反馈神经网络（Single-hidden layer feedforward network，SLFN）的基础上，于2004年提出的一种简洁有效的机器学习算法。设N个不同的样本（xi，yi），i=1，2，…，N。其中xi=[x