基于HPSG的汉语词库和语法规则系统构建-ChinaXiv.PDFVIP

基于HPSG的汉语词库和语法规则系统构建-ChinaXiv.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
总第271 期 2016 年 第6 期 基于HPSG 的汉语词库和语法规则系统 构建* 杨春雷 (上海外国语大学英语学院 上海 201600) 摘要: 【目的】探讨开发汉语可计算语法的理论基础和实践经验。【方法】以HPSG 理论为句法框架, 以 MRS 为语义描写手段, 以“汉语普通话在线语法”(简称“汉构”)的开发过程为例, 重点研究通过构建词库和规则层级, 对汉语特殊结构进行计算实现。【结果】“汉构”的开发证明, HPSG 非常适合作为汉语可计算语法开发的理论框架。 1 【局限】“汉构”仍在继续开发中, 其覆盖率暂未接受大规模自然语料的检测。【结论】“汉构”可作为沟通形式语 v 言学和计算语言学的桥梁和开发大规模资源型语法的基础。 0 5 关键词: HPSG 汉语普通话在线语法(汉构) 语法工程 自然语言处理 0 分类号: H087 G350 2 0 . 1 1 1 引 言 计算实现技术和商用等方面取得了重要进展[3-5] 。 7 但是, 汉语NLP 仍落后于英语、日语、德语等语 1 0 自然语言处理(Natural Language Processing, NLP) 种。尽管学界已开发出多种分析汉语形态特征的分析 2 方法可分为浅层和深层处理。前者指基于数据和统计 器, 但尚未有一部系统地面向深层语言处理的可计算 : [1] v 的处理方法, 在20 世纪90 年代成为NLP 的主要方法 , 语法。一方面, 计算语言学家对汉语的复杂结构和语 i X 并在语音、拼写和语法检查等领域促成了一些重要研 义特征感到很棘手, 无法取得高效的分析结果; 另一 a 究成果。但是, 由于自然语言非常复杂, 计算机在执行 方面, 汉语语法学家对计算语言学中应用的语言学框 n 复杂的分析任务时, 速度缓慢, 空间不足, 无法投入 架、可计算语法开发平台和工具缺乏了解, 为计算语 i h 处理效率要求较高的商业应用。因此, 计算语言学家 言学提供的可借鉴成果有限。陆俭明[6]认为中文信息 c 意识到要提高NLP 的精确度, 并降低对计算系统的要 处理“ 眼下特别要加强词汇句法语义研究, 集中精力 求, NLP 必须回到基于精确的语言学模型的方法, 即 解决好‘句处理’问题”, 并一针见血地指出“语言研究 基于约束条件或规则的深层处理的方法。其中, 编写 已成为信息工程科学发展的瓶颈”。虽然NLP 是一个 机读的形式语法的程序[2], 即可计算语法开发或语法 多边缘的交叉学科, 但应以语言学为主[7] 。 工程(Grammar Engineering)是关键。可计算语法开发 在 HPSG 理论框架内, 根据相似的编写流程, 国 过程复杂, 要建立词库、短语和句法规则、语义表达、 际上已经开发出 9 种语言的大规模语法, 并且已投入 信息结构等不同层次且相互关联的部分。从20 世纪末 商用, 另外, 还有其他 10 余种语法正在开发和完善 至今, 面向深层语言处理的可计算语法开发经历了近 (/moin/GrammarCatalogue)。笔者 20 年平稳快速发展期, 并在语言学理论基础、跨语言、 和斯坦福大学语言与信息研究中心共同开发“汉语普 通讯作者: 杨春雷, ORCID: 0000-0001-9123-7502, E-mail: yangchunlei@ 。 *本文系国家社会科学基金规划一般项目“类型学

文档评论(0)

shiyouguizi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档