- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 9 卷 第8 期 2013 年 8 月
技术进展
自动和半自动知识提取
史树明
关键词 :自动知识提取 模式匹配 微软亚洲研究院
正如动物依靠对环境和食物的认知来维持生 束,这种方式很难实现大规模知识库的构建。利用
存、人类依靠知识和技能来扮演社会角色一样,计 大众智慧是指利用互联网众包机制,把知识编辑工
算机应用程序和系统也依赖特定的 “知识”来完成 作交给成千上万的互联网志愿者大军,知识库Free-
特定的功能。近些年,包括互联网搜索系统、自动 b ase 的维护就依赖于这种机制。众包的核心是设计
导航系统、自动问答系统、机器翻译系统、语音识 合理的激励机制,使互联网用户利用业余时间向知
[1] 识库贡献一些信息。本文重点讨论第三类方法——
别系统等在内的智能系统 取得了巨大进展,其背
后是更深、更广、更新和更加准确的知识库的构建 自动或半自动知识抽取,其基本思想是设计自动或
和使用。 半自动的算法,从现有的 (自然语言)文档中提取
人类通过五官来获取知识,并通过语言和文字 知识。这个过程又被称为信息提取,定义为从非结
来实现知识的交流、共享和传承,由此建立起人类 构化和半结构化文本中提取结构化信息。由于抽取
庞大的知识体系。然而,这些丰富的知识并不能够 算法的选择往往依赖于所要进行的知识提取任务,
被计算机系统自然而直接地使用,原因在于当前的 因此我们首先介绍知识类型和提取任务。
计算机程序远未达到理解自然语言和洞悉人类智慧
的程度和水平 (甚至不少人怀疑这一天能否到来)。 知识类型和知识提取任务
而我们又确实需要计算机系统能够具备一些知识,
以便在不威胁到人类生存的前提下帮助人类完成一 当前多数智能系统所涉及到的主要知识基本上
些 “高级”任务。因此,我们的目标便自然地设定 可以表示为一个包含多种不同类型的结点和边的知
为以合理的代价构建一个尽可能丰富、准确和与时 识图以及图结点之间的关系集合。图1 展示了一个
俱进的知识库。 简单的知识子图,而表 1 则列举了此子图上一些结
在过去几十年,人们曾尝试采用直接编辑知识、 点之间的关系。
利用大众智慧、自动或半自动知识抽取三类方法来
构建知识库。 知识类型
直接编辑知识是指知识编辑人员把自己头脑中 知识图中可能包含三类结点 :
的知识写成计算机能够处理的格式,例如把 “狗是 实体 如某一个人物、某一个国家、某一个机
一种动物”写成 “IsA (狗,动物)”。在这种情况下, 构、某一条狗、某一种编程语言、某一个学科等。
知识的编辑工作通常由从事知识库构建的研发人员 图1 中的实体包括E 、E 和E 。
1 2 3
或者数据标定人员来完成。受时间和经济成本的约 语义类 一种类型的实体或一些实体的集合,
65
动态 第 9 卷 第 8 期 2013 年 8 月
人物 C R( 张三, 李四, 王五)=TRUE 。
3
C 城市 超类
文档评论(0)