064 openkn——网络大数据时代 的知识计算引擎.pdfVIP

  • 75
  • 0
  • 约 6页
  • 2016-01-29 发布于山西
  • 举报

064 openkn——网络大数据时代 的知识计算引擎.pdf

064 openkn——网络大数据时代 的知识计算引擎

专题 第 10 卷  第 11 期  2014 年 11 月 OpenKN——网络大数据时代 的知识计算引擎 1 1 2 1 王元卓  贾岩涛  赵泽亚  程学旗 1中国科学院计算技术研究所 关键词 :网络大数据 知识计算 知识网络 2信息工程大学 近年来,互联网技术和应用 个组织建立的知识库多达50 余种, 知识库,支持针对短文本的语义 模式的快速发展在改变人们生活 相关的应用系统更是达到了上百 理解。包含实体最多的是Wolfra- 方式的同时也产生了巨大的数据 种。其中,有代表性的知识库或 mAlpha,有10 万亿个实体。 近年来, 资源。预计到2020 年,全球的数 应用系统有KnowItAll[3], TextRun- 影响力比较大的知识库或知识搜 据总量将达到35ZB(1ZB=270B), ner[4] , NELL[5] , Probase[6] , Satori [7] , 索服务有谷歌的知识图谱,包含 其中75% 来自个人 (主要是图 PROSPERA[8] , SOFIE[9] 以及一些 5 亿个实体对象和350 亿条实体 片、视频和音乐),远远超过人类 基于维基百科等在线百科知识构 间的关系信息,而且规模也在随 有史以来所有印刷材料的数据总 建的知识库DBpedia[10] , YAGO[11] , 着信息的增长不断增大。除此之 1 [12] [13] 量(200PB )。随着互联网、物联网、 Omega , WikiTaxonomy 。除此 外,比较有特色的还有国内搜狗 云计算等技术的迅猛发展,网络 之外,一些著名的商业网站、公 知立方系统,侧重于基于图的逻 空间(cyberspace) 中各类应用层出 司和政府也发布了类似的知识 辑推理计算,包括利用语义网的 不穷,引发了数据规模的爆炸式 搜索和计算平台,如Ev i 公司的 三元组推理补充实体数据、对用 增长,形成了网络空间的大数据(简 2 TrueKnowledge 知识搜索平台 、 户查询词进行语义理解以及句法 [1] 称网络大数据) 。 美国官方政府网站Data .gov, Wol- 分析等。 网络大数据中包含大量有价 fram 的知识计算平台WolframAl- 本文将提出一种面向网络大 值的数据,根据其产生方式的不 pha、谷歌的知识图谱Knowledge 数据的、开放的、自适应的、可演 同可分为Web 内容数据、Web 结 Graph、脸书(Facebook) 推出的实 化的、可计算的知识计算引擎—— 构数据、自媒体数据、日志数据等。 体搜索服务Graph Search 等。 OpenKN。 如何从网络大数据中获得有价值 就规模而言,拥有概念最多 的知识,并对其进行深入的计算 的知识库是Probase ,目前其核心 OpenKN的整体架构 和分析,已成为国内外工业界和学 概念约有270 万个,概念总量达到 术界研究的热点[2]。目前,世界各 千万级。它是基于概率化构建的 图1 描述了OpenKN 作为计 1 50

文档评论(0)

1亿VIP精品文档

相关文档