- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Weka平台分类算法在启动子识别中应用
基于Weka平台分类算法在启动子识别中应用
摘 要: 在“后基因组”时代,对于DNA功能元件的注释,尤其是启动子这类关键的调控元件的鉴定是进一步理解人类基因组繁杂调控网络的重要研究内容。本文基于高通量测序数据对细胞系H1-hesc中的基因启动子进行识别分类,利用数据挖掘软件Weka基于启动子组蛋白修饰特征建立分类模型,比较各分类算法性能优劣,以期应用最佳分类器在其它细胞系中识别分类启动子。
关键词: 启动子;高通量测序;Weka;分类算法
Abstract:The definition of DNA functional elements (especially promoters) is an important research topic in understanding the regulatory network of human genome. This paper identifies types of gene promoters in H1-hesc cell line based on the high-throughput data and then builds classifiers between different types of promoters according to the data of histone modification feature. Finally the paper compares four classifiers performance and it is expected to apply the best model in the predicting and identifying promoters in other cell lines.
Key words: promoter;high-throughput sequencing;Weka;classification algorithms
引言
Weka是一款基于Java开发环境的机器学习软件,其全称是怀卡拓知识分析环境(Waikato Environment for Knowledge Analysis)。这款开源的数据挖掘软件发展到现在已由最初应用于农业领域而扩展到更多不同领域,尤其是以教育和研究为主的技术科研范畴中。其优势在于:在GNU(General Public License)准则下免费使用,几乎可以在任何一个现代计算平台上运行,集数据预处理和预测模型建立功能于一身,还有易用的图形交互界面[1]。Weka可以实现多样的数据挖掘任务,具体包括:数据预处理、聚类、分类、回归分析、结果可视化以及特征提取。
本文基于Weka软件平台的分类算法,展开启动子类型识别相关研究。随着对于人类基因组的研究进入“后基因组时代”,基因组学的研究重心已经由揭示生命体的遗传信息和密码转移到对分子整体水平的功能研究上来[2]。作为控制基因转录调控起始的关键DNA元件―启动子,是基因组学的研究热点,对于其类型识别预测等层面的深入研究有助于理解基因的表达调控机制等生物学特性,为疾病诊治增加了新方法,为进一步构建生物表达调控网络提供基础[3]。
1 基于高通量测序技术的启动子分类
随着生物信息学领域高通量测序技术的发展,新一代测序技术为启动子识别引入了新的数据支持,极大程度上促进了启动子区域的定位和启动子功能的定性。启动子存在于基因的转录起始位点附近,一般是上游区域(靠近5’端),是一段能够引导特异性基因表达活动的DNA序列[4]。启动子作为一个特殊的调控元件,在其区域会有潜在的RNA聚合酶在DNA上的初始结合位点以及特异性的组蛋白修饰信号,根据全基因组分析的结果表明,包括组蛋白H3第4位赖氨酸(H3K4)甲基化和组蛋白H3第9位赖氨酸乙酰化(H3K9ac)在内的若干组蛋白修饰都会在启动子区域富集[5]。本文基于以上启动子区域特点信息,利用RNA-seq数据和ChIP-Seq数据进行启动子类型的识别及获取组蛋白修饰特征数据。
1.1 数据获取及预处理
本文首先从UCSC基因组浏览器上获取人类基因组g19版本的注释基因数据,其主要包含信息见表1。研究时,对注释基因可根据以下条件进行预处理:转录起始位点唯一且转录起始位点上下游各10 kbp的区域内不包含其它基因任何位点的基因,最后得到7 732个符合条件的基因。然后依然从UCSC中下载细胞系H1-hesc的2个全细胞RNA-seq测序数据文件以及该细胞系的RNA聚合酶II的ChIP-Seq数据(版本号为wgEncodeEH000563)。最后,从基因表达综合数据库(Gene Expresion Omnibus
原创力文档


文档评论(0)