- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LinkedData网络演变为全球数据空间
关联数据云图是网络上发布的关联数据集的一个图形化显示。
为了发现更多的关联数据源,曼海姆大学使用了LDSpider来爬去关联数据,爬取了大约90万个文档约800多万个资源,(
通过使用关联数据技术可以在传统的不同领域共享数据,下表给出了发现的1014个数据集在不同领域的分布情况。
主题 数据集个数 所占百分比(%) 政府 183 18.05% 出版物 96 9.47% 生命科学 83 8.19% 用户生成的内容 48 4.73% 交叉领域 41 4.04% 媒体 22 2.17% 地理 21 2.07% 社交网站 520 51.28% 总计 1014
4关联数据的核心思想是数据发布者发布数据时遵循在连接、使用词汇集、提供元数据等一系列规则,使得应用程序可以更容易的发现数据集和聚合数据集,更简单的重用数据集。
4.1通过rdf链接,数据发布者把他们的数据集加入一个全球性的数据图中,可以被应用程序导航、通过RDF链接发现更多的相关数据集。通过查询发现56.11%的数据集都至少链接到另外的一个数据集,剩余的数据集是rdf链接的目标。下表是通过比较链接其他数据源数目进行分类。
链接其它数据源的数目 数据集个数 10 79(7.79%) 6—10 81(7.99%) 5 31(3.06%) 4 42(4.14%) 3 54(5.33%) 2 106(10.45%) 1 176(17.36%) 0 445(43.89%)
关联数据为网络上发布文档和数据提供了一个范例,
1.1海量数据,
通过使用互联网的海量数据可以提供新兴服务,促进科技创新,加快民主进程。例如:
1.亚马逊通过Web API提供它的产品数据信息,通过利用这些数据已经构建成一个非常成功的中小企业交易生态系统。
2.搜索引擎如谷歌和雅虎使用各种网站商店的结构化数据,这样不仅可以使用户和在线零售商通过增强用户体验和提高交易速度获得利益,而且可以减少搜索引擎从普通HTML页面提取数据时所消耗的人力、物力。
3、在科学研究方面,如生命科学,科学家通过在全球范围内共享研究数据,共同合作研究促进了科学的进步,如在人类基因组计划取得了良好的进展。
4、通过开放共享政府数据,使得政府的工作更加透明、促进了不同部门的合作。
然而数据的发布和共享是多样性的,怎样使得那些共享了数据的组织和个人获益,更轻松的准确的获取数据并重用。提出问题:
1、如何提供数据的访问方法,使得数据更容易重用。
2、如何在多个获取的数据集中发现相关联的数据?
3、如何使得应用程序可以从大量开始不知道的数据源中集成数据(开放世界假设)
正如万维网已经彻底改变了我们连接和使用文档的方式,关联数据也将彻底改变我们发现、访问、集成和重用数据的方式。关联数据是W3C提出的一套原则和技术,通过利用网络基础和网络思想实现数据最大层度的共享和重用。
1.2 关联数据基本原理
考虑现在共享和重用数据的机制
1.2.1结构化有利于更复杂的加工数据
重用数据的一个关键因素是数据是否有一个良好的结构,有规范和定义明确的数据,程序员可以通过编写程序更容易的获得数据重用数据。大多数的网站都包含一定的结构,然而HTML更侧重构造文本文档而不是直接构造数据。数据本身被包含到文本文档中,这样使得应用程序很难从HTML页面中提取结构化数据的片段。为了解决这些问题提出了微格式和开放Web API 等方法。微格式可以用来描述特定类型的实体,如人与组织,事件,评论和评级,通过数据的HTML页面中嵌入公布的结构化数据。微格式仅仅指定如何嵌入数据,应用程序可以明确的从页面提取数据。微格式的弱点是仅仅可以代表一小部分实体,而且只提供一小部分可能用来描述这些实体的属性,它也不能很好地表达实体间的联系。因此,微格式不适合在网络上分享数据。现在更普遍的做法是网站提供API,用户通过HTTP协议简单的查询和访问结构化数据。虽然提供编程访问结构化数据的优势是显而易见的,但每个API都是围绕创建者想要提供的特定服务而设定的,把不同来源的数据整合在一个应用程序中需要浪费大量的人力物力。
1.2.2通过超链接连接分布式数据
XML、JSON等结构化数据是Web API提供的数据格式,而且大多数编程语言为处理数据格式提供了支持。然而从网络角度来看,它们有一些局限性,(通过HTML对比解释),HTML定义anchor元素和href属性,当一起使用时表示当前文档向外的一个链接。网络用户代理如浏览器、搜索引擎可以识别这种组合的,为用户提供可点击的链接,或者直接跳转到所需的文档。正是这种有标准语法的链接方法使得网络上的文档相互关联。相反目前大多数Web API 返回的数据并没有类似HTML的这种链接机制,也就不支持发现相关联
文档评论(0)