- 75
- 0
- 约 6页
- 2016-01-29 发布于山西
- 举报
064 openkn——网络大数据时代 的知识计算引擎
专题 第 10 卷 第 11 期 2014 年 11 月
OpenKN——网络大数据时代
的知识计算引擎
1 1 2 1
王元卓 贾岩涛 赵泽亚 程学旗
1中国科学院计算技术研究所
关键词 :网络大数据 知识计算 知识网络 2信息工程大学
近年来,互联网技术和应用 个组织建立的知识库多达50 余种, 知识库,支持针对短文本的语义
模式的快速发展在改变人们生活 相关的应用系统更是达到了上百 理解。包含实体最多的是Wolfra-
方式的同时也产生了巨大的数据 种。其中,有代表性的知识库或 mAlpha,有10 万亿个实体。
近年来,
资源。预计到2020 年,全球的数 应用系统有KnowItAll[3], TextRun- 影响力比较大的知识库或知识搜
据总量将达到35ZB(1ZB=270B), ner[4] , NELL[5] , Probase[6] , Satori [7] , 索服务有谷歌的知识图谱,包含
其中75% 来自个人 (主要是图 PROSPERA[8] , SOFIE[9] 以及一些 5 亿个实体对象和350 亿条实体
片、视频和音乐),远远超过人类 基于维基百科等在线百科知识构 间的关系信息,而且规模也在随
有史以来所有印刷材料的数据总 建的知识库DBpedia[10] , YAGO[11] , 着信息的增长不断增大。除此之
1 [12] [13]
量(200PB )。随着互联网、物联网、 Omega , WikiTaxonomy 。除此 外,比较有特色的还有国内搜狗
云计算等技术的迅猛发展,网络 之外,一些著名的商业网站、公 知立方系统,侧重于基于图的逻
空间(cyberspace) 中各类应用层出 司和政府也发布了类似的知识 辑推理计算,包括利用语义网的
不穷,引发了数据规模的爆炸式 搜索和计算平台,如Ev i 公司的 三元组推理补充实体数据、对用
增长,形成了网络空间的大数据(简 2
TrueKnowledge 知识搜索平台 、 户查询词进行语义理解以及句法
[1]
称网络大数据) 。 美国官方政府网站Data .gov, Wol- 分析等。
网络大数据中包含大量有价 fram 的知识计算平台WolframAl- 本文将提出一种面向网络大
值的数据,根据其产生方式的不 pha、谷歌的知识图谱Knowledge 数据的、开放的、自适应的、可演
同可分为Web 内容数据、Web 结 Graph、脸书(Facebook) 推出的实 化的、可计算的知识计算引擎——
构数据、自媒体数据、日志数据等。 体搜索服务Graph Search 等。 OpenKN。
如何从网络大数据中获得有价值 就规模而言,拥有概念最多
的知识,并对其进行深入的计算 的知识库是Probase ,目前其核心 OpenKN的整体架构
和分析,已成为国内外工业界和学 概念约有270 万个,概念总量达到
术界研究的热点[2]。目前,世界各 千万级。它是基于概率化构建的 图1 描述了OpenKN 作为计
1 50
原创力文档

文档评论(0)