Day1 AM1:生物信息学概论-敏芯-2011-钟扬.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库的定义 (W.H.Inmon): 面向主题的、集成的、稳定的、历史的数据集合,用于支持战略决策制订 (而传统的操作型数据库是面向应用的、细节的、可更新的、瞬时的) 1)面向主题的:每个主题对应于一个宏观分析领域 2)集成的:入库之前,要进行加工集成 (转成面向主题的) 3)稳定的:几乎不更新(覆盖) 4)历史的:一般要用到过去5-10年的数据 数据挖掘的定义:一种决策支持过程,主要基于人工智能、机器学习、统计学等技术,高度自动化地分析原始数据,做出正确的决策 从大量的、不完整的、有噪声的、模糊的、随机的……数据中, 提取隐含其中的、人们事先不知道的、潜在有用的……信息和知识的过程、技术…… NCBI National Center for Biotechnology Information / 全球最大的生物信息资源中心 DNA 序列、蛋白质序列、出版物、数据挖掘工具等 BLAST Basic Local Alignment Search Tool BLAST 流程 /BLAST BLASTp BLAST 结果 (1) BLAST 结果 (2) BLAST 结果 (3) BLAST 结果 (4) BLAST 结果 (5) 分值和E值 BLASTP 2.2.14 [May-07-2006] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Sch?ffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), Gapped BLAST and PSI-BLAST: a new generation of protein database search programs, Nucleic Acids Res. 25:3389-3402. RID: 1157436303-6611-9612772342.BLASTQ4 Database: All non-redundant GenBank CDS translations+PDB+SwissProt+PIR+PRF excluding environmental samples 3,946,334 sequences; 1,357,962,904 total letters Query= Length=137 Distance tree of results Score E Sequences producing significant alignments: (Bits) Value giref|NP_416479.1| hypothetical protein b1970 [Esch... 278 4e-74 gi|110805940|ref|YP_689460.1| hypothetical protein SFV_2015 [... 275 3e-73 giref|NP_288429.1| hypothetical protein Z3062 [Esch... 274 9e-73 giref|YP_402694.1| hypothetical protein SDY_1038 [S... 204 9e-52 gigb|AAL20029.1| putative periplasmic or exported p... 201 6e-51 以下内容已删除 分值是衡量查询序列同命中序列间相似性的测度。分值越高,命中序列与查询序列越相似。 E值是随机获得一个比所得分值高的序列概率,即分值可靠性的测度。 E值越小, 所命中序列越可靠。 E值计算公式: E = K · m · n · e -λS K, 一个与目标序列相关的经验常数 λ ,与计分(分值)系统相关的经验常数 m,查询序列大小 n,所查询数据库大小 S,分值 Mega-Blast 可用于搜索近似完全的匹配, 可以处理一批核苷酸查询,比标准BLAST查询速度快 NCBI进行基因组BLAST查询时的默认程序 /BLAST 两个序列间的查询 比较两个序列的相似性,不需要传统BLAST的数据库查询 BLAST2 局部对位排列,

文档评论(0)

80092355km + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档