生物医学文本挖掘及其应用PPT.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物医学文本挖掘及其应用PPT

TOLL receptor 可作为生物武器的潜在病毒 能够成为生物武器:致病性,传播性。同时涉及到病毒这两个特性的文章却特别少。 A:病毒毒力遗传方面(virulence- genetic) C:病毒疾病传播力 病毒的昆虫媒介传播(insect vectors) 空气传播(air) 在空气中的稳定性(stability of viruses in air) 通过与A和C有共同联系B找出更多符合条件的病毒。 将得到的文献经过一些系列的处理,Arrowsmith列出了三个有意义的B-LIST(病毒的集合),通过进一步的统计学分析和查阅文献,最终找出相对有意义的病毒(B) 发现科研机构间潜在的合作方向 潜在合作方向 美国斯坦福大学 哥伦比亚大学 医学信息学研究领域 发现科研机构合作与交流的题目 结果: 更好地体现:相似点(可以合作之处)和不同点(可以相互交流、学习之处) 内容详细、明确:能体现出研究所使用的具体方法和侧重点 开放式的知识发现 BITOLA http://www.mf.uni-lj.si/bitola/ 输入单个的概念(疾病A),找到该概念的第一层相关概念并加以归类(药物B)。 从第一层相关概念(药物B)出发,找到它们的相关概念,并加以归类(基因C)。 检验基因和疾病是否有关联。如果没有,该基因与疾病有潜在的联系而且并没有文献报道。 提示:与疾病、生理学反应或者其他表型相关的新基因、药物或者神经科学。 BITOLA syk 内容 Swanson关联研究及其工具 Arrowsmith 的使用 Bitola的使用 用文献轮廓挖掘微阵列表达数据 Damien Chaussabel MedlineR 运用文献轮廓 挖掘微阵列表达数据 Mining microarray expression data by literature profiling Damien Chaussabel MedlineR Damien Chaussabel Alan Sher Immunobiology Section, Laboratory of Parasitic Diseases, National Institute of Allergy and Infectious Diseases, National Institutes of Health, Bethesda, MD 20892, USA Genome Biology 2002, 3(10):RESEARCH0055. 目标 建立一种挖掘技术 该技术以对文献轮廓literature profiling的分析为基础 文献轮廓: 对于某一个主题(如某基因)而言,有相关文献集合 对于该基因的文献集合,分析某些单词在文摘中出现的频次。 文献轮廓 基因B 基因C 基因A 相关文献 主题词1 频次 主题词2 频次 主题词3 频次 …… …… 主题词n 频次 研究步骤 检索文献 分析文本 过滤数据 聚类分析 1.检索文献 从基因开始,分别找到与各种基因相关的论文 标题中含有基因名字的论文。 人类基因命名委员会(Human Gene Nomenclature Committee, HGNC):官方名称、缩写、别名 / 1.检索文献 建立数据库 包括HGNC定义的10,500多种已知的人类基因 用PubMed查询格式的URL,例如: protein kinase C eta /htbin-post/Entrez/query?db=0form=1term=PRKCH+%5Bti%5D+OR+PKC-L+%5Bti%5D+OR+PRKCL+%5Bti%5D+OR+protein%20kinase%20C%20eta+%5Bti%5D PRKCH [ti] OR PKC-L [ti] OR PRKCL [ti] OR protein kinase C eta [ti]) 上述纪录按照GenBank和Locus Link的ID排列 该数据库可以作为Excel表格下载 1.检索文献 选70种基因,每一种基因的相关文献以XML格式下载 用Excel的宏命令抽取文摘,另存作为文本分析样本 Papers on Gene 70 Papers on Gene 3 Papers on Gene 2 Papers on Gene 1 2.分析文本 对于每一个基因的相关纪录的内容,分析文摘中单词出现的情况。【TF】 统计文摘中含有特定单词的文献数。【DF】 例如:对于GADD45B基因的相关文献,有18.7%的文摘中含有单词“Proliferation”。 Abstracts on Gene 1 Semantic Knowledge Representation SKR:是基于

文档评论(0)

erfg4eg + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档