利用合作产生的内容促进自然语言理解合作产生内容-华译网翻译公司.PDF

下载文档

0
0
约4.62千字
约 4页
2018-11-27 发布于天津
举报
版权申诉
保障服务

利用合作产生的内容促进自然语言理解合作产生内容-华译网翻译公司.PDF

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

利用合作产生的内容促进自然语言理解合作产生内容-华译网翻译公司

翻译样稿北京华译网翻译公司利用合作产生的内容促进自然语言理解叶夫根·加布里洛维奇（Evgeniy Gabrilovich ）雅虎研究中心无所不在的对互联网的访问使得无数 Web 用户可以在线合作进行各种各样的活动。很多这种活动促使了大型知识库的建立，或是其最初的目标就是如此（例如维基百科），或是作为一种副产品（例如雅虎问答）。在本文章，我们将讨论如何利用合作产生的内容（CGC ）资源中丰富的世界知识来发展计算机处理人类语言的能力。在CGC 资源出现之前，很多针对自然语言的计算方法都采用了WordNet 电子词典（费尔鲍姆，1998 年），该词典包含了语言学教授历经20 多年精心编写的大约15 万个单词。相比之下，协作进行的“维基词典”工程（）仅英语词汇就达到了 250 万个。从 1798 年开始出版的大英百科全书大约包含 65,000 篇文章，而维基百科中英语文章已经超过了370 万篇，以及超过200 种的其它语言的1500 万篇文章。拉马克里希南（Ramakrishnan ）和汤姆金斯（Tomkins ）（2007 年）估计每天全世界产生的用户创作的内容达到了 8-10G 字节，而这个数量从那时至今已经有了相当大的增长。合作产生内容的资源是一种使能资源合作产生内容的资源中前所未有的信息量使得新的、知识丰富的自然语言处理方法成为可能，它和传统的基于词汇的方法相比要强大的多。在过去几年里在这个发展方向上取得了相当大的进步。这方面的例子包括在信息检索中明确地操作人类定义的概念及其用途来增大词汇袋（艾格奧茲（Egozi ）等人，2011 年），或者利用维基百科更好地进行词义消歧（布内斯库（Bunescu ）和帕斯卡，2006 年；库色赞（Cucerzan ），2007 年）。使用CGC 资源的一种方式是将它们当做额外的大型语料库来处理，例如，用来计算更加可靠的术语统计或者构建全面的词典或者地名辞典。它们也可以用于扩展现有的知识库，增加概念覆盖并且为以前列出的概念增加使用实例。某些翻译样稿北京华译网翻译公司翻译样稿北京华译网翻译公司 CGC 资源，例如维基百科，会报告其每一条内容的每一项变化，从而可以直接观察到文档的写作过程。丰富的编辑信息使我们可以提出更好的文档术语重要性模型，假定在文档生命周期的早期引入的术语更贴近其主题。最近提出的“修订历史分析法” （阿基等人，2010 年）利用这种方法来提供有版本信息的文档的更准确的检索。但是，更有前途的一种研究方向是从CGC 资源的结构和内容中提取世界知识。这种知识可以超越传统的词汇库实现文本的新的表示法，并且允许在概念而不是单个词汇或者短语的层次上推理文本的意义。例如，考虑以下文本片段：“沃尔玛供应链实时运转。”不依赖大量的外部知识，对于计算机而言是难以理解这句话的意思的。“ 明确语义分析” （ESA ）（加布里洛维奇和马克维奇，2009 年）提供了一种向维基百科咨询以提取“ 山姆·沃尔顿” （沃尔玛创始人）、“西尔斯” 、 “塔吉特”和“艾伯森” （沃尔玛的主要竞争对手）、“食品和商业工人联盟” （一个试图将沃尔玛工人组织起来的工会）以及“超市”和“连锁店” （相关的一般概念）这类高度相关的概念的方法。可以说，通过咨询维基百科得到的见解最深刻的概念是“RFID” （无线射频识别），这是一种沃尔玛管理库存所广泛使用的技术。这些概念都没有在给定的文本片段中明确地提及，但是如果能够获得这些概念，将有助于理解这篇短文的意义。在本文的剩余部分，我将首先讨论使用CGC 资源来计算词汇的语义关联性，然后讨论