中华民族全基因中单核苷酸多态性的初步分析.pdfVIP

  • 9
  • 0
  • 约 68页
  • 2016-03-24 发布于贵州
  • 举报

中华民族全基因中单核苷酸多态性的初步分析.pdf

中华民族全基因中单核苷酸多态性的初步分析

±查苎墨—— _______-●______——-__●_____●_______’●●________———__一一 中华民族全基因坦中 簟错冀多态性的初步分析 捕 耍 目的,单核苷酸多态性,简称SNP,是广泛分布子某 一(些)群体、正常个体基因组DNA中的单碱基序列差 异,分布频率大于l%,代表了不同个体之间最大的遗传 差异。由于分布广泛,具有相当的遗传稳定性,位于基因 内部的SNP会直接影响到基因的表达水平或蛋白质的结 构,SNP研究逐渐成为生物学、遗传学等诸多领域如复杂 性疾病病因研究、药物敏感性研究甚至人类进化史研究的 主要工具。尽管国际上对SNP在方法学上的研究日渐深 入,公共数据库中SNP的数量也呈指数增长,对于人口 集中,地理、自然跨度明显的中国而言,这些数据仍无法 提供中国人群中全基因组SNP的信息。为此,本研究采 用中国人基因组DNA为材料,采用基因组序列比对的分 析方法,首次在全基因组水平构建了中华民族的SNP图 谱,对中国人SNP在基因组中的分布情况、SNP分型以 及SNP对氨基酸编码的影响进行了初步的分析。 方法t取单个汉族个体基因组DNA以及来自不同民 族、不同地区的24个个体等量混合基因组DNA分别构建 随机文库,随机挑选重组克隆,使用统一的pUCl8引物 单向测序,得到了SNP筛选所需的随机序列。由于SNP 只是基因组内单碱基序列的差异,参与分析序列的准确性 成为最重要的因素,因此,一系列严格的序列质量标准必 不可少。将测序仪产生的原始数据一吸收峰图文件一进行 中文摘要 碱基识别(base calling),转化成碱基序列文件。去除序 列两端的载体序列后,再使用RepeatMasker软件进行重 复序列的屏蔽。挑选高质量碱基(Q20)连续大于lOObp, 非重复序列大于30bp的随机序列与已公布的人类基因组 数据库(http://ncbi.nil.nih.gov)进行序列比对。对于存在 序列差异的位点,采用NQS(Neighborhood Quality Standard)标准进行判定,即:差异位点的碱基质量大于 20,位点两侧各五个碱基的质量大于15,两侧10个碱基 至少有9个与数据库中的序列能够完全匹配。另外,如果 莱条随机序列中SNP的数目超过了6个,则抛弃整条序 列。统计不同文库筛选SNP的数量、效率以及类型分布。 对于如上方法得到的SNP,截取其两端序列与UCSC数据 库的染色体信息库进行比对,以绘制SNP在全基因组中 的图谱。为了了解SNP对编码基因的影响,截取SNP位 点两侧的序列与人类基因注释库进行序列的同源性比较, 以了解SNP在编码区域及非编码区域的分布情况。本研 究还进行了所筛选中国人SNP与公共数据库dbSNP之间 的比较,找到中国人与dbSNP共有的SNP以及中国人特 异性SNP。 结果I 1.通过对所测118285条随机序列的分析,得 到19109个SNP和1214个插入、缺失型序列变异,其中 1%001个位点被定位在人类染色体上,除17,12号染色 体外,其他常染色体具有相似的SNP分布密度,而这两 条染色体SNP低密度可能是由于统计或计算偏移引起, 也可能具有生物学意义,还需进一步研究。性染色体SNP 的分布密度明显偏低。2.采用单个体及24个个体混合文 ±查苎量 _________——————_--_____-____——_——————_●-●___-●●__———————’—_——————————一一 库进行SNP筛选具有不同的筛选效率,以后者的效率较 高,但两种方法得到的SNP不存在类型分布的差别。3. 筛选得到的SNP中,16,679个SNPs落在已被注释 274个SNP落在基因的外显子区域,其中185个改变了氨 基酸的编码顺序。4.筛选所得SNP与dbSNP比较后,7107 个(37.19%)是中国人与之所共有的,2,544(13131%) 个是中国人中特有SNP,中国人特异性SNP与筛选的全 部SNP分类构成比上存在着差别,以TC,TG型SNPs 的差别最为显著。 结论-1.SNP在常染色体上的分布基本均

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档