- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
利用合作产生的内容促进自然语言理解合作产生内容-华译网翻译公司
翻译样稿
北京华译网翻译公司
利用合作产生的内容促进自然语言理解
叶夫根·加布里洛维奇(Evgeniy Gabrilovich )
雅虎研究中心
无所不在的对互联网的访问使得无数 Web 用户可以在线合作进行各种各样
的活动。很多这种活动促使了大型知识库的建立,或是其最初的目标就是如此(例
如维基百科),或是作为一种副产品(例如雅虎问答)。在本文章,我们将讨论如
何利用合作产生的内容(CGC )资源中丰富的世界知识来发展计算机处理人类语
言的能力。
在CGC 资源出现之前,很多针对自然语言的计算方法都采用了WordNet 电
子词典(费尔鲍姆,1998 年),该词典包含了语言学教授历经20 多年精心编写
的大约15 万个单词。相比之下,协作进行的“维基词典”工程( )
仅英语词汇就达到了 250 万个。从 1798 年开始出版的大英百科全书大约包含
65,000 篇文章,而维基百科中英语文章已经超过了370 万篇,以及超过200 种的
其它语言的1500 万篇文章。拉马克里希南(Ramakrishnan )和汤姆金斯(Tomkins )
(2007 年)估计每天全世界产生的用户创作的内容达到了 8-10G 字节,而这个
数量从那时至今已经有了相当大的增长。
合作产生内容的资源是一种使能资源
合作产生内容的资源中前所未有的信息量使得新的、知识丰富的自然语言处
理方法成为可能,它和传统的基于词汇的方法相比要强大的多。在过去几年里在
这个发展方向上取得了相当大的进步。这方面的例子包括在信息检索中明确地操
作人类定义的概念及其用途来增大词汇袋(艾格奧茲(Egozi )等人,2011 年),
或者利用维基百科更好地进行词义消歧(布内斯库(Bunescu )和帕斯卡,2006
年;库色赞(Cucerzan ),2007 年)。
使用CGC 资源的一种方式是将它们当做额外的大型语料库来处理,例如,
用来计算更加可靠的术语统计或者构建全面的词典或者地名辞典。它们也可以用
于扩展现有的知识库,增加概念覆盖并且为以前列出的概念增加使用实例。某些
翻译样稿
北京华译网翻译公司
翻译样稿
北京华译网翻译公司
CGC 资源,例如维基百科,会报告其每一条内容的每一项变化,从而可以直接
观察到文档的写作过程。丰富的编辑信息使我们可以提出更好的文档术语重要性
模型,假定在文档生命周期的早期引入的术语更贴近其主题。最近提出的“修订
历史分析法” (阿基等人,2010 年)利用这种方法来提供有版本信息的文档的更
准确的检索。
但是,更有前途的一种研究方向是从CGC 资源的结构和内容中提取世界知
识。这种知识可以超越传统的词汇库实现文本的新的表示法,并且允许在概念而
不是单个词汇或者短语的层次上推理文本的意义。例如,考虑以下文本片段:“沃
尔玛供应链实时运转。”不依赖大量的外部知识,对于计算机而言是难以理解这
句话的意思的。“ 明确语义分析” (ESA )(加布里洛维奇和马克维奇,2009 年)
提供了一种向维基百科咨询以提取“ 山姆·沃尔顿” (沃尔玛创始人)、“西尔斯” 、
“塔吉特”和“艾伯森” (沃尔玛的主要竞争对手)、“食品和商业工人联盟” (一个
试图将沃尔玛工人组织起来的工会)以及“超市”和“连锁店” (相关的一般概念)
这类高度相关的概念的方法。可以说,通过咨询维基百科得到的见解最深刻的概
念是“RFID” (无线射频识别),这是一种沃尔玛管理库存所广泛使用的技术。这
些概念都没有在给定的文本片段中明确地提及,但是如果能够获得这些概念,将
有助于理解这篇短文的意义。
在本文的剩余部分,我将首先讨论使用CGC 资源来计算词汇的语义关联性,
然后讨论
您可能关注的文档
- 催化剂再生步骤烧焦-科学网—博客.PPT
- 做一个研究型教师-金湖第二中学.PPT
- 随堂练习课件-千亿客户端.PPT
- 难局局衣财州州-惠州财政专项资金综合管理系统.PDF
- 儿文批评理论成果报告.PPT
- 青少年环保大使行动及-Goethe-Institut.PDF
- 青海师范大学2014年就业办质量年报告-青海毕业生就业信息网.DOC
- 静9-1止流体的压力.PDF
- 光学计量技术支持WESO铸造厂优化工艺应用说明-GOM.PDF
- 静平衡设计.PPT
- 投资咨询工程师客户需求调研试题及答案.docx
- 河南省新密市事业单位考试(中小学教师类D类)职业能力倾向测验试卷带答案.docx
- 福建省邵武市事业单位考试(中小学教师类D类)职业能力倾向测验重点难点精练试题含答案.docx
- 河南省辉县市事业单位考试(中小学教师类D类)职业能力倾向测验试卷参考答案.docx
- 辽宁省北镇市事业单位公开招聘考试职业能力倾向测验(D类)(中小学教师类)真题学生专用.docx
- 湖南省涟源市事业单位考试(中小学教师类D类)职业能力倾向测验知识点试题一套.docx
- 湖北省武穴市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库完整版.docx
- 湖北省枝江市事业单位考试职业能力倾向测验(中小学教师类D类)强化训练题库及参考答案.docx
- 陕西省华阴市事业单位公开招聘考试职业能力倾向测验(D类)(中小学教师类)真题含答案.docx
- 辽宁省新民市事业单位考试(中小学教师类D类)职业能力倾向测验重点难点精练试题一套.docx
最近下载
- 公共场地和道路保洁工作流程(图).pdf
- 2023年信阳职业技术学院单招职业适应性测试题库及答案解析完整版727150967.pdf VIP
- 20文件2010版marriott9工程及维护设施.pdf VIP
- 2025年党支部书记学习教育专题党课中央八项规定专题党课讲稿(严守中央八项规定精神,争做新时代合格党员;从中央八项规定精神看党员干部的责任与担当).docx VIP
- 镇海中学剑桥班入学测试卷.pdf
- 高校辅导员就业指导和服务工作开展路径.pptx VIP
- 2025年信阳职业技术学院单招职业倾向性考试题库附答案.docx VIP
- 《水去哪儿了》精品课件.pptx VIP
- (5篇)学习中央八项规定精神主题教育工作实施方案学习计划.docx VIP
- 空中乘务人员形象设计与化妆技巧全册教案.pdf
文档评论(0)