转录因子-东南大学生物电子学国家重点试验室.PPT

转录因子-东南大学生物电子学国家重点试验室.PPT

转录因子-东南大学生物电子学国家重点试验室

第一节 引言 基因表达调控是分子生物学目前研究的一个重点,基因转录水平上的调控是最重要的环节。 与基因表达调控有关的信息包括基因组DNA序列、转录因子、调控元件、基因表达数据等。 数据库技术及数据挖掘技术在基因表达调控信息研究中的应用。 第二节 生物数据挖掘和可视化 1、数据挖掘 数据挖掘,即数据库中的知识发现,是一个从大量关联数据及数据库中提取隐含信息的过程,目的是发现未知的和规律性的知识 。 数据挖掘本质上是对数据库中蕴涵的、未知的、有潜在应用价值的、非平凡知识的提取。 数据挖掘常用的方法有: 统计分析 规则归纳 决策树 聚类分析 神经网络 自组织映射 遗传算法 数据库集成: 数据仓库技术 所有的数据在物理上集中在一起 虚拟数据库技术 数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在Internet不同的数据服务器上 从两种数据库集成技术来看: 数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的情况。 虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。 利用计算机进行自动分析和数据挖掘,发现功能和特征 ,主要体现在四个方面: (1)序列和结构特征 (2)同源家族 (3)基因表达模式 (4)与疾病相关的数据特征 2、生物信息可视化 通过数据的可视化,帮助人们认识和理解数据,进而分析和解

文档评论(0)

1亿VIP精品文档

相关文档