生物医学关联数据研究进展和比较分析.docVIP

下载本文档

20
0
约9.41千字
约 18页
2018-10-10 发布于福建
举报
版权申诉

生物医学关联数据研究进展和比较分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

生物医学关联数据研究进展和比较分析

生物医学关联数据研究进展和比较分析　　[摘要]首先介绍当前生物医学领域在数据资源集成与共享方面的发展需求，认为当前语义Web的主要技术之一――关联数据为生物医学发展带来重要的机遇，然后对生物医学领域关联数据基础研究、建设以及应用研究情况进行详细分析，进一步对典型生物医学关联数据进行具体特性方面的比较分析，指出当前发展面临的困难和问题，并提出今后发展的方向。　　[关键词]语义Web　关联数据　生物医学　映射　比较分析　　[分类号]G250 　　1　背景　　近年来，随着生物医学的不断演进和人类对该领域的不断探索，生物医学领域积累了大量的数据、信息和知识，这些知识内容可能存储于相同组织的相同数据源，也可能存储在不同组织的异构数据源中，如分布在科学文献、Web页面、专利、电子病例、各种同构或异构数据库等不同形式的载体中，其数据类型丰富多样，数据规模庞大，分布也十分广泛。大多数情况下，它们的存储地点以及存储方式都是不同的，但它们之间很可能存在着关联，例如：Entrez Gene上的某个基因可能与CMIM上的某个疾病存在关联。与此同时，为了支持研究实验和科学决策，生物医学研究者们需要便捷地获取尽可能完备的相关数据。然而，由于许多数据分散存储在相对独立的模式下，导致了在异构环境下，研究者们难以发现和正确使用他们感兴趣的信息。“跨库”或者“跨平台”的一站式访问过程还未达到一种理想的自动化集成效果，因此，迫切需要有一种方法可以集成这些来自多方的数据和资源。　　为了实现这一目标，人们对生物医学数据共享领域进行了多年研究和实践尝试，试图将基因、蛋白质、通路、疾病和化合物等数据有效地集成并且提供给研究者们随时获取。然而，相关的研究面临诸多困难，如数据拥有不同的识别框架、不一致的术语表达，多种不同的数据格式和下层数据存储模型设计困难等。随着语义Web技术的发展，生物医学领域的研究者和研究机构开始探索语义Web技术在此方面的可行性，关联数据(linked data)成为近年来的一种重要实践方法。关联数据致力于将这些不同的数据关联起来，连接大量的知识内容中蕴含着知识节点间的联系，并通过Web发布共享。通过关联数据集成大规模的生物医学数据有助于资源的集成与共享，同时关联数据创建的知识内容之间的语义关联也有助于人们对其进行深入的分析和探索。　　2　关联数据及其对生物医学发展的意义　　继多年的语义Web研究探索之后，近年来，关联数据被认为是一系列利用Web在不同数据源之间创建语义关联、集成、共享、互联，发布数据、信息和知识的最佳实践方法。鉴于生物医学知识内容的相对完整性、规范性和关联性，以及生物医学研究和发展过程中对多角度知识关联构建的迫切需求，生物医学领域成为目前语义Web技术应用规模最大、关联数据技术探索最为活跃的领域之一。　　　　2.1　关联数据的目的、定义和原则　　关联数据最早是在2007年5月，由Chris Bizer和Richard Cyganiak向W3c SWEO提交的一个项目申请(Linking Open Data项目)①中提出来的，其宗旨在于号召人们将现有数据发布成关联数据，并将不同数据源互联起来，目的是构建一张计算机能理解的语义数据网络，而不仅仅是人能理解的文档网络，以便于在此之上构建更智能的应用。相比现在的文档网络，语义数据网络提供的关联不但更加丰富，而且具有语义。在用关联数据创建的语义数据网络上，使用者可以自由地从一个数据集跳转到其他数据集，快速地获取他们感兴趣的信息。　　关联数据是万维网的发明人Tim Berners-Lee提出的一种万维网上发布数据的方式，可以看成语义Web的一种实现方式。它一般要求采用RDF数据模型，利用URI(统一资源标识符)命名数据实体，发布和部署实例数据和类数据，从而可以通过HTTP协议揭示并获取这些数据。可见，关联数据的基本原则是采用RDF数据模型将结构化的数据发布到Web上，并采用RDF链接将不同的数据源内部关联起来。具体在实践中，Berners－Lee指出关联数据有4个原则必须遵守：①使用URI作为任何事物的标识名称；②使用HTTP URI使任何人都可以访问这些标识名称；③当有人访问某个标识名称时，提供有用的信息；④尽可能提供相关的URI，以使人们可以发现更多的事物。　　2.2　关联数据为生物医学发展带来的机遇　　2.2.1　为生物医学资源整合提供新的途径　当前生物医学领域已有大量的数据库可供使用，如美国的Pubmed、Genbank、PIR、SWISS2PORT、PDB和美国NCBI的Entrey Sequences，欧洲的EMBL，日本的DDBJ等。除这些大型数据库以外，还有相对较小的专门性数据库，如GenProEc。从大量的数据库来看，生物医