- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基因四进制的理论序列与实际序列的特性比对
邓宇
(清华大学第一附属医院)
基因组的试验研究异常火热,基因组的序列分析、算法、数据库的扩容如火如荼,理论基因组的发轫,星火正开始悄悄燃起。我们用类似语言学中对词频分布的研究方式,对基因碱基理论序列与实际序列进行了初步比较,想看看基因这本大书中,不同碱基符、碱基词组各有多少个?以及占总基因谱的比例,即分布。
“基因四进制”[1]可以为碱基词的理论生成,及有规律的符号、词组序列提供比较的理论基础。比如,看看第一位碱基符A在基因组中有多少个,也可以看看二位基因词,如TC,GA;三位碱基(词)组CTG,AAG等各有多少,各占比例,从而揭示基因词的存在及词法,语法规律。为生命基因组的伟大探索加把油、吹鼓风,用“新信息理论”[2-8](信息守恒律,信息的运算,信息的化学反应等新广义信息论,基因序列的正弦、余弦曲线拟合),理论基因学、理论生物信息学的基因数字实验、计算机试验,计算机数字模拟开辟基因-生命信息学研究的新天地。基因的理论实验数字、实验计算,理论基因组与实际基因组的结合,以计算机为实验仪器,碱基数字为实验原料,基因进位制为根基,将为基因的理论试验探索和发展开拓新途径。
一、材料方法
1、核酸序列的来源:从Genbank,ENBL的核苷酸序列数据库EMBL-Bank下载:AY644963、BC011974等核酸序列,碱基合计6万多个的实际序列作为比对的原始基因库来源。
2、方法的理论基础——基因四进制:根据我们建立的基因四进制[1],利用碱基、核酸的四个基符A,G,T,C(个位、第一位)为元素,及“逢四进一”规则,创造了基因,核酸的四进位制符号系统。该基因的理论进位系统的第一位、个位有4个符号元:A,G,T,C;第二位(相当于十进制的十位)有4×4=16个组员,AA,AG,AT,AC,GA,GG,GT,GC,TA,TG,TT,TC,CA,CG,CT,CC;第三位有43=64个成员,AAA,AAG,…,CCC;第四位有44=256个成员;…;第n位有4n个成员AA…A,AA…G,…,CC…C。构造出了理论的或人工基因四进制系统,对基因实验和理论研究开辟了一条新路。
3、验证思路策略:利用“基因四进制”理论模型,寻找碱基排布规律,解读基因密码锁匙。核酸生命的语言,遣词造句的“全息规则”。
4、验证方法
首先,用(数据库)程序生成四进制的基因符号系列,第一位,第二位,第三位,第四位,…,第n位。再将每位的每一个成员与基因数据库的碱基序列作对比。如用“GTC”从基因序列AY644963、BC011974等的开头开始,搜索“GTC”,在序列中若发现“GTC”就计个数,定个位,一直搜到序列的结尾,合计包含“GTC”的总数量,待分析。其他组元,检索统计类似,都做全程搜索,记数。手工搜索太慢几乎不可能,故不适合。半手工半机器的搜索还是慢,自编程序的数字自动搜索计数才是上佳方法。
二、结果
1 核酸A、G、T、C及其四进位制系统,各位频度的分布与理论值相比是不均匀、非平均的,即非遍历的,见表1及图1-9。
2 随着位数的增加,各基因符(类似数系的数字符号)差异(极差和极差度)逐渐增大。
3 基因四进制系统中,各位的频度分布,从大到小的排列分布多是横“S”形的曲线,见图1,4,7。
4 按“基因四进制”每位的顺序排布各位“基因词(基因数字符号)”,其数量分布轨迹是“波浪形”运动的,见图3,6,8,9
表1.基因四进制第一位基因符的理论与实测分布比对 A G T C 数量 % 数量 % 数量 % 数量 % 理论平均值 15757 25.0% 15757 25.0% 15757 25.0% 15757 25.0% 实测值 16980 26.9% 15621 24.8% 15412 24.5% 15016 23.8% 差异 1223 1.9% -136.3 -0.2% -345.3 -0.5% -741 -1.2% 差异率 7.76% 0.86% 2.19% 4.70% 最大差异 1964 12.5%
图1. 基因四进制第一位、“个位符(相当于‘个位数’)”的实际分布状态。A最多,C最少。
图2. “个位符”的百分分布。以4个碱基‘个位符’为X的值,“X轴”以基因四进制的基因符为符系(数系)坐标序列。
图3.基因四进制第二位16个“二位碱基”基因符号序列的实际分布。X轴是基因“四进制”转换成“十进制”的坐标计量单位标注。
图4. 基因进制系第二位,按其在实际基因序列中分布,从大到小的排序。
图5.四进制基因系中,各个“二位符(数)”在实际基因序列中的百分分布。“二联碱基词”最多的是“AG”占8.15%,“CG”最少只有2.93%,理论序列平均6.25%,各试验
您可能关注的文档
- SAT物理考试的应用公式.doc
- SAT写作的例子的应用顺序.doc
- SAT写作范文:疾病的治疗与预防.doc
- SAT阅读突破生词的方法.doc
- 200KA电解槽强化电流过程中发生电解质粘度增加的实践探讨.pdf
- Sy-5探索淀粉酶对淀粉和蔗糖的作用.doc
- bca0染性单核细胞增多症不同血样本EBV的研究.pdf
- YNFMIS单位门户登陆及CA认证升级后的变化.doc
- 北京降压O号的临床应用.docx
- 北师大版八年级物理《32探究--比较物体的运动快慢》导学案.doc
- 2025年娄底技师学院招聘工作人员(2人)笔试备考试题及答案详解(有一套).docx
- 2025年太仆寺旗事业单位引进急需紧缺人才的(4人)模拟试卷及答案详解(典优).docx
- 2025年天津医科大学朱宪彝纪念医院第四批招聘方案(15人)模拟试卷附答案详解(综合题).docx
- 2025年大庆市肇州县乡镇卫生院招聘医学毕业生(8人)模拟试卷附答案详解(考试直接用).docx
- 2025年新化县住房保障服务中心选调工作人员(3人)笔试备考试题及答案详解(最新).docx
- 2025年广西右江民族医学院(第一批)招聘教职人员控制数工作人员笔试备考试题及参考答案详解一套.docx
- 2025年度信宜市民政局所属事业单位(信宜市社会福利指导中心)选模拟试卷含答案详解(综合卷).docx
- 2025年平凉市静宁县城镇公益性岗位人员招聘(78人)笔试备考试题含答案详解(考试直接用).docx
- 2025年大庆市萨尔图区招聘幼儿教师(30人)笔试备考试题含答案详解(完整版).docx
- 2025年宜宾市高县事业单位招聘考试(52名)模拟试卷及答案详解(基础+提升).docx
最近下载
- 2025年一级建造师《建设工程经济》三色笔记.pdf VIP
- 2024-2030年半导体气体检测行业市场现状供需分析及投资评估规划分析研究报告.docx
- 幼儿教师口语课程思政优秀案例.pdf VIP
- 欧姆龙omron安全光栅.pdf VIP
- 2025年云南省职教高考文化课程《数学》考试说明(暂定稿).docx VIP
- 美国插头插座安规标准尺寸要求及治具图纸.pdf VIP
- 不锈钢栏杆接地工艺标准(图文+图集做法).pdf VIP
- 《新能源汽车概论》学生手册 任务2-1 替代燃料汽车技术与结构原理 学生手册.docx VIP
- 随钻跟管桩技术规程培训.pptx
- 未成年人保护预防未成年人犯罪知识讲座主题班会PPT课件.pptx VIP
文档评论(0)