[工学]5数据库搜索
第三章 数据库搜索 3.1.1 序列分析的意义 生物信息主要以基因的形式存在于DNA分子中,表现为DNA分子上不同的核苷酸顺序。如果核苷酸的排列顺序发生改变,那么它代表的生物学意义可能也会随之改变。因此,测定DNA分子中的核苷酸排列顺序是生物学研究的基本内容之一。建立快速、准确的DNA序列分析方法,对于研究基因的结构和功能、揭示生命的奥秘具有十分重要的意义。 序列分析是生物信息学最主要的研究内容之一,它可以分为两个主要部分: 序列组成(特别是基因组层次的)分析 序列之间的比较分析 核酸序列分析的首要任务是找出与结构和功能相关的序列特征,借助序列相似性搜索或同源搜索将未知序列和数据库中的已知序列一一进行比对,如果在数据库中发现了相似序列,并且已知这条序列具有某些功能,那么可以据此推测新序列也有相似的功能。 随着多种测序新技术的应用,DNA序列数据快速积累于各种数据库(如GenBank)中,这些序列被作为信息资源加以分析,为若干生物学研究领域服务。 一. 碱基组成 DNA 序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。 二.碱基相邻频率 分析DNA 序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积:如果Pu 是序列中碱基u 的频率,且Puv 为两个相邻碱基u 和v 的频率,则 PuPv ≠ Puv Nussinov(1984)研究了两碱基相邻的频率(表3.3)。数据来自166 个脊椎动物的DNA 序列,总长136731 个碱基。 作为一个特别的例子,图3.1 给出了鸡血红蛋白β链的mRNA 编码区的438个碱基。 表3.4 列出了16 种两碱基的数目。将该表看作4×4 的表,计算行列独立性的?2统计量,得到?2=59.3(?20.05,9=16.92),表明行(第一碱基)列(第二碱基)之间存在明显的关联。 三.同向重复序列分析 除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。 Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)对整个序列搜索一次。给每一碱基赋以值αi,例如A、C、G、T的值为0、1、2、3。由X1、X2、?、Xk共k个字母组成的每一种不同的字码按 计算字码值。 例如,5 字码TGACC的值为1+3×44+2×43+0×42+1×41+1×40=459。 先从低k值的字码开始搜索(如k=2),记录序列中每一个位置2字码的字码值。 表3.6 列出了序列 TGGAAATAAAACGTAAGTAG 中所有碱基2字码(k=2)的初始位置和字码值。 以每一重复的3 碱基为起点的4 字码搜索未能发现更长的重复序列。 因此最长的同向重复为4、8、9 位置上的AAA,13、17 位置上的GTA 以及7、14位置上的TAA。 对图3.1 鸡β球蛋白DNA 序列进行同向重复序列搜索,一些最长同向重复序列列于表3.8。 Karlin等(1983)提出了序列内存在的最长同向重复序列的统计显著性评价方法。 在核苷酸的位置为独立的假定下,长度为n的序列中,最长同向重复L(n)的期望长度和方差为: 假定同向重复序列的长度呈正态分布。对于图3.1 鸡β蛋白序列,A、C、G、T 四个碱基的次数分别为87、144、118 和89,因而P=0.2614,最长重复序列的期望长度为8.13 且具有期望方差0.9138。根据95%的正态分布概率,理论上可以从k=6开始,且预期最长同向重复序列不超过10。 四. DNA 序列的几何学分析—Z 曲线 DNA 序列实际上是一种用4 种字母表达的“语言”,只是其“词法”和“语法”规则目前还没有搞清楚。 人类的语言有文字、声音、手语、图画等多种表达形式。同样,DNA 序列作为一种语言,其表达形式也不是唯一的。 传统上,DNA 序列是用4 种字母符号表达的一维序列。这是一种抽象形式,适合于存储、印刷、比较、排列和查找特殊序列等。 我国学者张春霆等开展了DNA 序列三维空间曲线表示形式,即DNA 序列几何表示形式的研究。几何形式虽然与符号形式完全等价,但显示了DNA序列的新特征。两种形式各有其特点,相互补充。这一新方法,为解读DNA 序列信息提供了崭新的手段。 他们的研究始于对4 种碱基对称性的观察,提出了用正面体表示碱基对称性。1994 年,他们利用这种形式来表示任意长度的DNA
您可能关注的文档
最近下载
- 教科版(2017)四年级下册科学全册教案(表格式) .pdf
- LY/T2649-2024自然保护区生物多样性保护价值评估技术规程.pptx VIP
- 医疗信息化智慧健康管理.pptx VIP
- 钢筋翻样自动计算excel表格.xls VIP
- 2026春苏教版(新教材)小学科学三年级下册(全册)教学设计(附教材目录P187).docx
- 2026道德与法治三年级下册全册核心素养教学设计教案.pdf
- CCAR-21 民用航空产品和零部件满足要求审定规定.pdf VIP
- 智能制造培训课程.pptx VIP
- 2025年成都国星宇航科技股份有限公司招股说明书.pdf VIP
- 最全100%必过地理信息安全保密培训证书题库(单选题).docx
原创力文档

文档评论(0)