- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
读书笔记-novel hybrid pso- sa model for biclustering of
Novel Hybrid PSO- SA Model for Biclustering of Expression Data
【作者】K.Thangavel, J.Bagyamani, R.Rathipriya
【期刊】Procedia Engineering
【年卷期】Volume 30, 2012
【页码】Pages 1048–1055
摘要
常规的聚类方法如K-均值、启发式的贪心双聚类方法、元启发式双聚类算法如遗传算法、模拟退火或者粒子群优化算法不能够有效地找到基因中的一致性。本文将模拟退火和二进制粒子群优化算法的特点结合在一起的混合算法应用于挖掘基因表达数据,该算法称为PSO-SA-BIC。一个改进适应度值,基于平均相关值(ACV)的函数用来识别平移模式和缩放模式的双聚类。应用于基准数据集上的实验表明PSO-SA-BIC算法在找到统计意义上的双聚类优于典型的算法。
关键词:数据挖掘;双聚类;基因表达数据;模拟退火;粒子群优化;评价相关值
1.介绍
当一个基因是活跃的,细胞由DNA上指定的基因序列产生蛋白质编码,这个过程叫做基因表达。一个基因表达矩阵由许多在一组条件或样本下经过检验的基因组成。基因间高维以及复杂的关系在标准的元启发式双聚类方法中施加了很大的挑战。在数据矩阵中能识别出各种各样的名为平移模式和缩放模式的双聚类种类。识别出来的双聚类种类取决于所使用的双聚类方法。大部分研究人员运用基于评价函数的MSR来挖掘平移模式的双聚类,已经证明了这种方法在挖掘缩放模式和演变一致性双聚类的识别中是有缺陷的。而且在2011年Bagyamani et al也证明了缩放模式的双聚类和演变一致性的双聚类比平移模式的双聚类具有更多的生物学意义,本文的定义了一个新颖的可以挖掘平移模式和缩放模式双聚类的评价函数。
1.1 定义双聚类
定义G为一组基因,C一组条件,E(G,C)为表达矩阵,其中G={1,2,…,m},C={1,2,…,n}。eij代表在j条件下的i基因表达值。双聚类的目的是挖掘出一个在E(G,C)内部的子矩阵E(G’,C’),该子矩阵的大小为,其中代表元素的个数。Ben-Dor et al.于2003年定义了下列的双聚类问题。双聚类的目的是:
使得子矩阵的大小最大化
并且服从ACV(B(G’,C’))δ,δ是ACV的阈值。
2 背景
最早的双聚类算法是直接聚类,也可以称之为块聚类。这个方法是基于对子矩阵的统计学分析来形成双聚类。Cheng and Church 于2000年定义一个MSR来量化双聚类的一致性,并运用贪心策略来寻找得分低于给定阈值的双聚类。Bagyamani et al.识别出了具有显著生物学意义的高一致性双聚类。为了克服贪心启发式策略的问题,元启发式方法如演变算法和遗传算法被Chakraborty 和Maka(2005)运用于解决双聚类问题,后来被Liu,F.et al.,(2006)和Banka,H. 和Mitra,S.(2006). Federico et al(2006) 将演变算法运用于寻找基因表达数据的双聚类。标准化的遗传算法收敛速度慢以及需要长时间来找到最好的双聚类。如果在局部搜索中没有获得初始化种子,那么就不能达到全局最优。Chakraborty,A和Maka H he Kenneth Bryan et al.(2005)将模拟退火算法运用于基因表达数据。Shyama Das and Sumam Mary Idicula ( 2010a, 2010b ),将贪心和二进制粒子群优化算法运用于基因表达数据来寻找双聚类。一种改进的算法将PSO和另外一些搜索策略如模拟退火相结合,成为一种新的混合算法,以达到全局最优。
本文:一个二进制粒子群优化算法结合模拟退火的混合算法用来寻找基因表达数据中的双聚类。该算法挖掘出高一致性的并且更大的双聚类。
3 研究方法
高一致性的基因分类被视为包含信息的基因,根据Roy Varshavsky (2006),基于基因选择方法的t-test 根据不同的基因表达值排列基因。具有高t-test的基因被选择,从而选择有包含意义的基因从而排除无意义的基因。
3.1 定量和定性指标
定量指标:重叠程度、基因均值、条件均值、矩阵均值(by Das C)。
平均相关值是由Teng L 和Chan L-W(2006)提出的评价基于加权相关系数的双聚类的统计得分。用f(B(G’,C’))来表示一个基于适应度函数的新颖的平均相关值挖掘的双聚类B(G’,C’)为:
(1)
其中δ是ACV的阈值。具有高适应度值的双聚类被视为好的双聚类,然而一个容量为0的双聚类被认为是最坏的双聚类。
3.2 元启发式(Meta-heuristic)方法
由于启发式方法的复杂性以及巨
文档评论(0)