MATLAB在生物信息学分析中的应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
MATLAB在生物信息学分析中的应用

MATLAB在生物序列信息分析中的应用 生物技术(生物制药方向09) 杨清松 0909501162 摘要:MATLAB生物信息工具箱为广大用户提供了一个用于基因组和蛋白质组分析的综合环境, 它利用数据库资源, 使科学研究事半功倍, 在工具箱提供的开放环境里, 用户甚至可以按照自己的目的来设计和利用分析工具。本文主要介绍MATLAB生物信息工具箱在基因序列分析中的应用,包括确定核苷酸组成, 密码子组成, 氛基酸转化和组成等, 所有操作简便高效, 结果可视化程度高。 关键词:MATLAB,序列分析,序列比对,ORF,密码子 生物信息学是生物学和信息技术的结合,是现代科学的又一个分支学科,它利用计算机对大量生物数据进行分析处理。生物信息学把用于存储和搜索数据的数据库开发,与用于分析和确定大分子序列、结构、表达模式和生化途径等生物数据集之间的关系的统计工具和算法的开发结合在一起[1]。人类基因组测序工作完成后,我们在后基因组时代面临的一个重要问题,即如何处理越来越多的数据,进而分析基因组序列的意义,研究尚不清楚的结构和功能等。这对生物信息学的工具提出了新的挑战。 在国际学术界, MATLAB已经被公认为准确、可靠的科学计算标准软件。从MATLAB6。5。1首次增加了引人注目的生物信息学工具箱以来, 如今的版本生物信息学工具箱的数据处理能力得到了极大的提升[2]。 目前,MATLAB可以进行序列分析,系统发生分析,芯片数据分析,可视化等,并可以在互联网上获取数据库资料。最新版本的工具箱则强化了质谱分析和统计推论与预测功能,包括基线校正、平滑、排比和重新取样等。能让研究人员执行质谱仪资料分析、统计推论与预测、绘图及处理大量基因组和蛋白质体序列分析等工作。文章主要介绍当前在基因序列分析、序列比对中的应用。 基因序列分析 序列分析是利用计算机方法来寻找有关核苷酸或氨基酸。序列的信息序列分析的一般工作是基因识别, 确定两个基因的相似性, 确定一个基因的蛋白质编码以及研究另一相似基因的功能。在分析完一段序列时, 首要任务就是研究序列中的核苷酸组成。下面是序列分析的主要内容和相应函数。 1.1确定核苷酸的组成 可以使用序列统计函数确定这个序列是否含有蛋白质编码域的特征。 1.2绘制密度图 可用ntdensity函数绘制单体密度和联合体密度图。 1.3计算核苷酸数目 可用basecount函数计算链中的核苷酸数目。 1.4计算互补核苷酸数目 显示核苷酸分布可用seqrecomplement函数显示核苷酸的分布。 1.5饼状图 可用basecount函数显示饼状图。 1.6计算二聚体个数 可用dimercount函数计算一个序列中的二聚体个数,并在一个条形图中显示出来。 1.7确定密码子组成 三核苷酸密码子编码一个氨基酸, 在一个核苷酸序列中有个可能的密码子。知道序列中密码子的百分比有助于用户假设密码子的排列情况。 1.8计算密码子数目 可用函数计算一个核苷酸序列中的密码子数目。 1.9绘制热红外分布图 可用绘图程序绘制热红外分布图显。 1.10显示密码子 示出个阅读框中的所有的个密码子。 1.11确定密码子分布 运用code count函数。 1.12氨基酸转化和组成 确定蛋白质相关的氨基酸组成可以提供给用户蛋白质特征图谱。 1.13确定氨基酸组成和分子量 可用atomiccomp函数和molweight函数确定蛋自质的氨基酸组成和分子量。 序列比对 序列比对是生物信息学的重要基础。进行序列比对的目的之一是判断两个序列之间是否具有足够的相似性, 从而判定二者之间是否具有同源性。序列比对的基本算法主要有两个, 一是用于全局比对的Needleman-wunsch算法, 另一个是主要用于局部比对的Smith-waterman算法, 而后者又是在前者的基础上发展起来的[3]。在MATLAB生物信息工具箱中, 序列比对主要用这两种算法。运用MATLAB进行序列比对的一般步骤如下: 2.1查找序列信息 2.1.1查找目的基因 在NCBI中查询并获得目的基因序列。 2.1.2读入序列数据 用getgenebank函数可将基因信息被以结构列表的形式导人MATLAB工作区。 2.1.3读入另一序列的信息 导入另一可能有同源性的基因序列,如果用户能够在数据库中定位一个未知的基因, 那么这个未知基因和已知基因的功能和特征很可能是相同的[4]。 2.2确定蛋白质编码序列 2.2.1查找目的基因的ORF ORF即开放阅读框,指可以连续编码蛋白的核酸序列。利用seqshowORFs函数的输出结果给出了人类的所有阅读框中ORF中起始和终止密码子的位置。 2.2.2查找另一参比基因的ORF 2.3比较氨基酸序列 2.3.1将ORF转换为氨基酸序列 2.3.2绘制散点图

文档评论(0)

shenlan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档