- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深层语言处理的新契机
2004-2-10
摘要 深层语言处理的新近发展,使人们对高级语法分析的实际应用产生了新的憧憬。通过一种新的国际合作形式,HPSG 句法分析在效率上有了新的突破,这种合作形式以非常系统化的方式更好地整合了各种不同的方法。然而效率仍然是深层分析走向实际生活运用的主要障碍之一。我们提出了深层分析运用上的一种崭新的方法,这为弥补句法分析在覆盖面和健壮性上的缺陷提供了一种策略。应用不同深度的分析方法,通过深层分析和浅层分析的有效结合,浅层分析的健壮性在信息提取应用中得以保持。基本策略和实现体系也为不同分析方法(包括高层学习的应用)的有效整合的分散式集体性研究提供了基础。
引言
如何用语言学规定的语法进行语法分析一直是理论计算语言学研究中的一个核心问题。然而到目前为止,深层语法分析在语言技术应用的发展中还处于被忽略的地位。深层句法分析器缺乏实际生活应用所需的效率和健壮性。提高覆盖面是费时的和昂贵的。少数几个真正显示了良好覆盖面的语法却引发了大量的歧义现象。在我的讲演中,我将展示为语言方法提供了新的机遇和挑战的那些新发展。深层分析增长的效率,以及选择合适的深层分析嵌入到用于信息提取的一个健壮的浅层分析模型中,这些为深层分析的运用提供了方法,可以在不损失健壮性的同时提高分析效果。我们将 HPSG 句法分析集成到一个混合型的信息提取系统中(该系统包括统计部分和FST 部分),从而实现了这样的选择性运用。我将证明,这样一种方法为深层语法和词汇循序渐进地、可控地发展指示了一条光明的道路。
今日语言科技的最严重的缺陷是没有一种有效方法去获取文本和言语中的真实内容,缺少几近于语言理解的系统。因此,计算语言学核心的、也是最具有挑战性的任务是实现深层语言处理,在书面语、口语和有效的语义表达之间建立精确的映射。
当代语言学已经能够为语法规范提供理论和形式体系,这种语法以可描述的、明晰的形式表述了这种映射。计算语言学为语法发展贡献了精细的平台和工具。几个大规模的语法体系已经设计完成,面对实际应用目标显示出了足够高的准确性和足够大的覆盖面。然而,由于在效率、健壮性和特异性方面达到基本要求的语言分析方法还不存在,这种令人鼓舞的发展势头受到了严重抑制。这意味着用这些语法进行工作的所有系统在实际应用中都显得太迟慢和太脆弱。
此外,他们也不能处理自然语言中大量的歧义现象,也即是说,他们不能在大量的语言上看似正确的分析结果中进行选择。
当然,最急迫的问题还是时间和空间的效率。假如一个NLP系统在普通的PC机上不能在可接受的时间内处理完日常的句子,它就不能胜任大多数的应用。如果研究者要为处理一个句子坐等多个小时,那么就没有机会去提高覆盖面,去解决健壮性和特异性这样的问题。性能问题是如此之严重,以至于很多颇为看好的研究项目没能产生实际应用效果。效率不济成为了大量运用语法的几个大规模系统的主要障碍,譬如 IBM 的 LILOG 项目,在 LILOG STUF 分析器上用 Prolog 语言实现 HPSG 句法分析(Herzog and Rollinger, 1991);又如 XEROX 的项目,在 Interlisp XLE 平台上实现 LFG 句法分析(Butt et al., 1999);又如 EU 的项目LS-GRAM,在 Prolog ALEP 平台上实现 HPSG 句法分析(Schmidt et al., 1996)。
由于覆盖面和语法精确程度的提高,所有苦心获得的效率增益都几乎立刻被效率损失所抵消,希望很是渺茫。
效率
语音科技中迄今为止规模最大的研究项目 Verbmobil (Wahlster, 2000),在口语面对面交谈的实时翻译中采用基于 HPSG 的深层语言处理作为核心技术之一,如此的决策遭到了来自课题联盟内外的众多的的质疑。为什么要将最缓慢、最复杂的处理方法植入到面向实时处理的系统中呢?在混合 Verbmobil 体系中,深层处理只是多种处理方法之一,因此总是被快速处理模块的分析所抢先,由于这个原因,如此决策才得以保留。下文我们还将要谈到这点。
在项目的第一阶段从 1993 到 1996 年,德国IBM 在海德尔堡的一个团队负责深层处理的工作。通过在 HPSG 句法分析中加入统计语言模型,他们力图克服效率问题。在 Verbmobil 第一阶段结束的 1996 年,我们离最终 Verbmobil 原型系统的性能需求还相距甚远。当第二阶段我们实验室被委以深层语言分析的重任时,我们是否能研制出一种有效的系统成分,不至于总是阻碍快速的浅层分析模块,这些都不是很清晰。最初我们使用了业已存在的 HPSG 发展平台PAGE 的分析器,它已经在 DISCO 项目中(Uszkoreit et al., 1994)得到了运用。斯坦福大学和 DFK
您可能关注的文档
最近下载
- 文献产后出血护理论文与产后出血的护理论文:产后失血性休克继发急性肺.doc VIP
- 2002年天津市中考化学试卷【含答案】.pdf VIP
- 火灾自动报警系统部件现场设置情况、控制类设备联动编程、消防联动控制器手动控制单元编码设置记录.docx VIP
- 致动C+无线使用说明书.pdf VIP
- 西安宇立航空科技有限公司行业竞争力评级分析报告(2023版).pdf
- 2.3 黑龙江省基本概况与主要文旅资源《地方导游基础知识》(第四版)PPT.pptx VIP
- 心理健康状况自评量表(SCL-90).doc VIP
- 质量保证记录控制程序.doc VIP
- DPD原理及实现全解.ppt
- 不符合情况纠正措施.docx VIP
原创力文档


文档评论(0)