一种挖掘共调控基因的新方法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种挖掘共调控基因的新方法.pdf

一种挖掘共调控基因的新方法 韩凤君,饶妮妮 电子科技大学生命科学与技术学院,四川成都 (610054 ) 摘 要:一般认为具有相似mRNA表达模式和功能的基因可能有同样的调控机制。本文利用酵母基 因数据作样本,在经典关联规则基础上,结合哈希树和遗传算法形成了一种新方法,用来挖掘基因 间的正负共调控关系。计算机实验发现了大量共调控规则。与GO数据库对比,这些规则揭示了基 因在功能或细胞构成和活动中具有共调控关系,还发现一些未注释的基因,它们与那些属于同一规 则的基因有关联,其生物功能有待验证。 关键词:共调控基因;关联规则;哈希树;遗传算法;数据挖掘 1. 引言 DNA 微阵列技术可以在一次实验中观察成千上万个基因,带来基因数据的海量增长。研究他 们的功能和相互关系,清晰的勾勒出基因间的相互关系具有重要意义。用聚类分析技术来寻找基因 不同实验间潜在的有意义的关系[1-3], 已经展开广泛研究。主要有四类方法:数据聚类、统计分类、 神经网络和模式识别[4] 。 目前展开的研究大多针对共表达基因,它与共调控基因存在很大不同。共表达基因是由聚类分 析方法找到的具有相似表达模式的基因;共调控基因是至少由一个共同的已知转录调控因子控制的 一组基因[1][5] 。研究表明当基因表达数据的相似度大于0.84 时,只有50%的机率受共同的转录因子 调控[1] 。因此,研究一种能够直接寻找共调控基因的方法非常必要。Liping Ji 和Kian-Lee Tan[6]用基 因表达数据分析其动态变化,挖掘正负共调控基因组得到了较好效果,更精确地反应了基因间的共 调控关系。基因表达值仅是静态数据,而调控过程本身是动态的变化过程,从基因表达数据的变化 规律来寻找共调控基因更符合实际情况。然而上述方法不足的是,将一个基因参与的不同调控过程 均划归到同一类中,不能精确地反映该基因参与的功能活动。 近几年,关联规则在基因信息挖掘中显示了一定的优越性,不仅可以直接从基因微阵列数据中 [7]-[10] 提取具有共表达的基因族,还可以结合基因注释信息作为参考找出同一组基因间的调控关系 。 用关联规则直接分析基因表达数据,选取阈值非常重要,一些表达值较小但参与重要生命过程的基 因数据很可能被忽略掉,没有进行深入研究,而一些表达值一直相对较大的数据则会影响到聚类效 果。另一方面,用阈值截取后的基因,会割裂不同条件下的相互联系,破坏数据的完整性。Pedro Carmona-Saez[10]等在基因表达数据基础上进一步结合新陈代谢途径注释、转录因子和GO 分类等信 息,剔除冗余信息,得到较好的效果,但此方法需要知道待处理数据的先验信息,这在实际应用中 受到限制。 受某些转录因子调控的一组基因的表达值随转录调控因子上调而上调的过程称为正调控,而呈 现相反变化趋势的过程称为负调控。本文在Liping Ji 的工作基础上[6],建议了一种新的正负共调控 基因挖掘算法,该算法在Agrawal 的Apriori 算法[12][14] 中运用哈希树结构来提高时间效率,结合遗 传算法产生调控规则,能够对基因按参与的调控活动或功能进行划分和聚类。 2. 基本算法 2.1 关联规则 定义:I {I ,I ,Κ ,I }表示由m 个不同的项目组成的集合,每个项目相当于一种商品。交 1 2 m T D T I 易 是项目的集合,代表顾客一次购买的商品的集合。 是交易 所组成的数据库。 中不同的 项所组成的集合称为项集,由 X I k 个不同的项所组成的项集称为k -项集。设 是一个 中的项目的 -1- 集合,如果X ⊆

文档评论(0)

wuyouwulu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档