中华民族全基因中单核苷酸多态性的初步分析.pdfVIP

下载本文档

9
0
约 68页
2016-03-24 发布于贵州
举报

中华民族全基因中单核苷酸多态性的初步分析.pdf

中华民族全基因中单核苷酸多态性的初步分析

±查苎墨—— _______-●______——-__●_____●_______’●●________———__一一中华民族全基因坦中簟错冀多态性的初步分析捕耍目的，单核苷酸多态性，简称SNP，是广泛分布子某一(些)群体、正常个体基因组DNA中的单碱基序列差异，分布频率大于l％，代表了不同个体之间最大的遗传差异。由于分布广泛，具有相当的遗传稳定性，位于基因内部的SNP会直接影响到基因的表达水平或蛋白质的结构，SNP研究逐渐成为生物学、遗传学等诸多领域如复杂性疾病病因研究、药物敏感性研究甚至人类进化史研究的主要工具。尽管国际上对SNP在方法学上的研究日渐深入，公共数据库中SNP的数量也呈指数增长，对于人口集中，地理、自然跨度明显的中国而言，这些数据仍无法提供中国人群中全基因组SNP的信息。为此，本研究采用中国人基因组DNA为材料，采用基因组序列比对的分析方法，首次在全基因组水平构建了中华民族的SNP图谱，对中国人SNP在基因组中的分布情况、SNP分型以及SNP对氨基酸编码的影响进行了初步的分析。方法t取单个汉族个体基因组DNA以及来自不同民族、不同地区的24个个体等量混合基因组DNA分别构建随机文库，随机挑选重组克隆，使用统一的pUCl8引物单向测序，得到了SNP筛选所需的随机序列。由于SNP 只是基因组内单碱基序列的差异，参与分析序列的准确性成为最重要的因素，因此，一系列严格的序列质量标准必不可少。将测序仪产生的原始数据一吸收峰图文件一进行中文摘要碱基识别(base calling)，转化成碱基序列文件。去除序列两端的载体序列后，再使用RepeatMasker软件进行重复序列的屏蔽。挑选高质量碱基(Q20)连续大于lOObp，非重复序列大于30bp的随机序列与已公布的人类基因组数据库(http：／／ncbi．nil．nih．gov)进行序列比对。对于存在序列差异的位点，采用NQS(Neighborhood Quality Standard)标准进行判定，即：差异位点的碱基质量大于 20，位点两侧各五个碱基的质量大于15，两侧10个碱基至少有9个与数据库中的序列能够完全匹配。另外，如果莱条随机序列中SNP的数目超过了6个，则抛弃整条序列。统计不同文库筛选SNP的数量、效率以及类型分布。对于如上方法得到的SNP，截取其两端序列与UCSC数据库的染色体信息库进行比对，以绘制SNP在全基因组中的图谱。为了了解SNP对编码基因的影响，截取SNP位点两侧的序列与人类基因注释库进行序列的同源性比较，以了解SNP在编码区域及非编码区域的分布情况。本研究还进行了所筛选中国人SNP与公共数据库dbSNP之间的比较，找到中国人与dbSNP共有的SNP以及中国人特异性SNP。结果I 1．通过对所测118285条随机序列的分析，得到19109个SNP和1214个插入、缺失型序列变异，其中 1％001个位点被定位在人类染色体上，除17，12号染色体外，其他常染色体具有相似的SNP分布密度，而这两条染色体SNP低密度可能是由于统计或计算偏移引起，也可能具有生物学意义，还需进一步研究。性染色体SNP 的分布密度明显偏低。2．采用单个体及24个个体混合文 ±查苎量 _________——————_--_____-____——_——————_●-●___-●●__———————’—_——————————一一库进行SNP筛选具有不同的筛选效率，以后者的效率较高，但两种方法得到的SNP不存在类型分布的差别。3．筛选得到的SNP中，16，679个SNPs落在已被注释 274个SNP落在基因的外显子区域，其中185个改变了氨基酸的编码顺序。4．筛选所得SNP与dbSNP比较后，7107 个(37．19％)是中国人与之所共有的，2,544(13131％) 个是中国人中特有SNP，中国人特异性SNP与筛选的全部SNP分类构成比上存在着差别，以TC，TG型SNPs 的差别最为显著。结论-1．SNP在常染色体上的分布基本均

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

中华民族全基因中单核苷酸多态性的初步分析.pdfVIP