- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用合作产生的内容促进自然语言理解合作产生内容-华译网翻译公司
翻译样稿
北京华译网翻译公司
利用合作产生的内容促进自然语言理解
叶夫根·加布里洛维奇(Evgeniy Gabrilovich )
雅虎研究中心
无所不在的对互联网的访问使得无数 Web 用户可以在线合作进行各种各样
的活动。很多这种活动促使了大型知识库的建立,或是其最初的目标就是如此(例
如维基百科),或是作为一种副产品(例如雅虎问答)。在本文章,我们将讨论如
何利用合作产生的内容(CGC )资源中丰富的世界知识来发展计算机处理人类语
言的能力。
在CGC 资源出现之前,很多针对自然语言的计算方法都采用了WordNet 电
子词典(费尔鲍姆,1998 年),该词典包含了语言学教授历经20 多年精心编写
的大约15 万个单词。相比之下,协作进行的“维基词典”工程( )
仅英语词汇就达到了 250 万个。从 1798 年开始出版的大英百科全书大约包含
65,000 篇文章,而维基百科中英语文章已经超过了370 万篇,以及超过200 种的
其它语言的1500 万篇文章。拉马克里希南(Ramakrishnan )和汤姆金斯(Tomkins )
(2007 年)估计每天全世界产生的用户创作的内容达到了 8-10G 字节,而这个
数量从那时至今已经有了相当大的增长。
合作产生内容的资源是一种使能资源
合作产生内容的资源中前所未有的信息量使得新的、知识丰富的自然语言处
理方法成为可能,它和传统的基于词汇的方法相比要强大的多。在过去几年里在
这个发展方向上取得了相当大的进步。这方面的例子包括在信息检索中明确地操
作人类定义的概念及其用途来增大词汇袋(艾格奧茲(Egozi )等人,2011 年),
或者利用维基百科更好地进行词义消歧(布内斯库(Bunescu )和帕斯卡,2006
年;库色赞(Cucerzan ),2007 年)。
使用CGC 资源的一种方式是将它们当做额外的大型语料库来处理,例如,
用来计算更加可靠的术语统计或者构建全面的词典或者地名辞典。它们也可以用
于扩展现有的知识库,增加概念覆盖并且为以前列出的概念增加使用实例。某些
翻译样稿
北京华译网翻译公司
翻译样稿
北京华译网翻译公司
CGC 资源,例如维基百科,会报告其每一条内容的每一项变化,从而可以直接
观察到文档的写作过程。丰富的编辑信息使我们可以提出更好的文档术语重要性
模型,假定在文档生命周期的早期引入的术语更贴近其主题。最近提出的“修订
历史分析法” (阿基等人,2010 年)利用这种方法来提供有版本信息的文档的更
准确的检索。
但是,更有前途的一种研究方向是从CGC 资源的结构和内容中提取世界知
识。这种知识可以超越传统的词汇库实现文本的新的表示法,并且允许在概念而
不是单个词汇或者短语的层次上推理文本的意义。例如,考虑以下文本片段:“沃
尔玛供应链实时运转。”不依赖大量的外部知识,对于计算机而言是难以理解这
句话的意思的。“ 明确语义分析” (ESA )(加布里洛维奇和马克维奇,2009 年)
提供了一种向维基百科咨询以提取“ 山姆·沃尔顿” (沃尔玛创始人)、“西尔斯” 、
“塔吉特”和“艾伯森” (沃尔玛的主要竞争对手)、“食品和商业工人联盟” (一个
试图将沃尔玛工人组织起来的工会)以及“超市”和“连锁店” (相关的一般概念)
这类高度相关的概念的方法。可以说,通过咨询维基百科得到的见解最深刻的概
念是“RFID” (无线射频识别),这是一种沃尔玛管理库存所广泛使用的技术。这
些概念都没有在给定的文本片段中明确地提及,但是如果能够获得这些概念,将
有助于理解这篇短文的意义。
在本文的剩余部分,我将首先讨论使用CGC 资源来计算词汇的语义关联性,
然后讨论
文档评论(0)