- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
福建农林大学生物信息学复习材料【精选】.doc
概念
生物信息学 狭义:分子生物信息学,用信息技术存储、分析基因组、蛋白质组序列。
广义:指生物科学与信息科学与计算机科学、物理学、化学交汇融合的交叉学科。
信息:指能够消除人们不确定性的东西 。信息可以计算
Score:衡量匹配结果的质量,是相对的(与选取的计分依据有关),越高越好
E值:expectation value 评估相似性,是绝对的,越低越好
P值:P 0 表示越显著结果越可信,
P ∞ 结果随机产生的可能性越大)
是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率,低P值表明重要的匹配,这些匹配可能会有生物学意义
重复序列:真核生物的基因组中具有多数反复存在的DNA 顺序组成(一般不参与编码)
用Repeatmasker软件查找重复序列
序列谱:由多序列对比结果的全部信息构造的序列特征表,表中列出每一个位点氨基酸残基的替代.插入,缺失等情况
双序列比对:通过一定的算法对两个DNA或蛋白质的序列进行比较,找出两者之间最大相似性的方法。 工具是用程序来编写完成算法。
记分矩阵:为了反映两个序列比对结果而预先设定的分值矩阵。
取代矩阵:PAM、BLOSUM
稀疏矩阵:只有相同的为1,其余的为0,大多数矩阵单元的值为0。
DP(动态规划):按某种条件舍去那些不可能得到最有结果的局部解。
全局比对:对给定序列全长进行比较的方式,在待比较两个序列中引入间隔,使得对序列的全场都得到比较。
局部比对:对序列进行比较时,更注重局域的最佳匹配
比对工具:Blast、FASTA、Smith-waterman
BLAST (Basic Local Alignment Search Tool)
ORF:一个起始密码子和终止密码子之间的序列称为开放阅读框。
生物信息学研究内容分为哪三个部分?四个分支
核酸与基因组信息学: (1)测序与拼接 (2)基因识别与注释 (3)SNP(单核苷酸多态性)分析 (4)非编码区信息分析(5)比较基因组学
蛋白质组信息学: (1)蛋白质结构模拟 (2)蛋白质功能预测
(3)基因表达到蛋白质产物信息分析
代谢调控网络
生物进化分析
数据库、算法、算法工具分析生物学数据
生物信息学中两种最基本研究方法?主要的不同点
模式识别(数据)---同原序列、异源序列
结构模拟预测(计算)----结构:chou.Fasman;;物理化学;算法 工具
计算机里的专业术语
TCP----传输控制协议
IP - - -互联网协议
DNS-----域名服务器
LAN----局域网
WAN----广域网
http---超文本传输协议
ftp---文件传输协议
Telnet----在UNIX平台上远程连接间的协议
DNA数据库的类型
常规数据库:从全基因组单基因序列
特定数据库:模式生物基因组数据库;另一类则与特殊党的测序技术有关
最主要三个DNA数据库:EMBL、Genbank、DDBJ
数据库的搜索方法、各自的特点
GenBank----Entrez(集成检索系统)
EMBL------SRS (序列检索系统)
Entrez特点: ①使用简便,把不同类型的DB有机的结合在一起,通过超文本链接,用户可以从一个数据库直接转入另一数据库 ② 数据库和应用程序结合在一起。
EBI的SRS系统 SRS可以将不同文本格式的数据库真和成为统一的模式。
Entrez集成了哪些数据库
PubMed:生物医学文献 核苷酸序列数据库(Genbank)
蛋白质序列数据库 Structure:三维大分子结构
Genome:全基因组 PopSet:人口研究的数据集
OMIM:在线人类孟德尔遗传 UniSTS:标记和映射数据
GenBank EMBL 之间对应关系及一条记录的含义
GenBank :locus definition accession version title
EMBL : ID DE AC SV RT
序列名称 序列简单说明 序列编号 序列版本号 题目
GenBank: keywords source organism reference authors
EMBL: KW OS OC RN RA
关键词 序列来源物种名称 种属 相关文献编号
文档评论(0)