- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于HPSG的汉语词库和语法规则系统构建
总第271 期 2016 年 第6 期
基于HPSG 的汉语词库和语法规则系统
构建*
杨春雷
(上海外国语大学英语学院 上海 201600)
摘要: 【目的】探讨开发汉语可计算语法的理论基础和实践经验。【方法】以HPSG 理论为句法框架, 以 MRS
为语义描写手段, 以“汉语普通话在线语法”(简称“汉构”)的开发过程为例, 重点研究通过构建词库和规则层级,
对汉语特殊结构进行计算实现。【结果】“汉构”的开发证明, HPSG 非常适合作为汉语可计算语法开发的理论框架。
【局限】“汉构”仍在继续开发中, 其覆盖率暂未接受大规模自然语料的检测。【结论】“汉构”可作为沟通形式语
言学和计算语言学的桥梁和开发大规模资源型语法的基础。
关键词: HPSG 汉语普通话在线语法(汉构) 语法工程 自然语言处理
分类号: H087 G350
计算实现技术和商用等方面取得了重要进展[3-5] 。
1 引 言
但是, 汉语NLP 仍落后于英语、日语、德语等语
自然语言处理(Natural Language Processing, NLP) 种。尽管学界已开发出多种分析汉语形态特征的分析
方法可分为浅层和深层处理。前者指基于数据和统计 器, 但尚未有一部系统地面向深层语言处理的可计算
[1]
的处理方法, 在20 世纪90 年代成为NLP 的主要方法 , 语法。一方面, 计算语言学家对汉语的复杂结构和语
并在语音、拼写和语法检查等领域促成了一些重要研 义特征感到很棘手, 无法取得高效的分析结果; 另一
究成果。但是, 由于自然语言非常复杂, 计算机在执行 方面, 汉语语法学家对计算语言学中应用的语言学框
复杂的分析任务时, 速度缓慢, 空间不足, 无法投入 架、可计算语法开发平台和工具缺乏了解, 为计算语
处理效率要求较高的商业应用。因此, 计算语言学家 言学提供的可借鉴成果有限。陆俭明[6]认为中文信息
意识到要提高NLP 的精确度, 并降低对计算系统的要 处理“ 眼下特别要加强词汇句法语义研究, 集中精力
求, NLP 必须回到基于精确的语言学模型的方法, 即 解决好‘句处理’问题”, 并一针见血地指出“语言研究
基于约束条件或规则的深层处理的方法。其中, 编写 已成为信息工程科学发展的瓶颈”。虽然NLP 是一个
机读的形式语法的程序[2], 即可计算语法开发或语法 多边缘的交叉学科, 但应以语言学为主[7] 。
工程(Grammar Engineering)是关键。可计算语法开发 在 HPSG 理论框架内, 根据相似的编写流程, 国
过程复杂, 要建立词库、短语和句法规则、语义表达、 际上已经开发出 9 种语言的大规模语法, 并且已投入
信息结构等不同层次且相互关联的部分。从20 世纪末 商用, 另外, 还有其他 10 余种语法正在开发和完善
至今, 面向深层语言处理的可计算语法开发经历了近 (/moin/GrammarCatalogue)。笔者
20 年平稳快速发展期, 并在语言学理论基础、跨语言、 和斯坦福大学语言与信息研究中心共同开发“汉语普
通讯作者: 杨春雷, ORCID: 0000-0001-9123-7502, E-mail: yangchunlei@ 。
*本文系国家社会科学基金规划一般项目“类型学视野下的汉语短语结构语法及其计算现实研究”(项目编号:16BYY136)、教育部
人文社会科学研究规划基金项目“面向深层语言处理的汉语短语结构语法”(项目编号:13YJC740118)和上海外国语大学规划基金项目
“语言量化现象的多维度研究”(项目编号:2013XJGH023)的研究成果之一。
您可能关注的文档
- 句型和词组七年级上Goforit.DOC
- 只简略介绍多彩人生的张茜.PPT
- 叶盐都街道办事处城区背街小巷道路硬化工程.DOC
- 台州区有机物循环利用中心项目环境影响评价评价公众参与说明.PDF
- 司法公正之多重维度-华南农业大学学报.PDF
- 各月份主要工作安排-安溪湖头中心学校.DOC
- 合并20150216产学研合作项目.DOC
- 合肥财政支出项目绩效自评报告农展项目.DOC
- 吉安建设工程安全质量督查情况一览表.DOC
- 吉林化学工业股份有限公司2004年报告摘要1重要-中国经济网.PDF
- 基于HJ时间序列数据的农作物种植面积估算-农业工程学报.PDF
- 基于MODIS数据估算睛空陆地光合有效射.PDF
- 基于万向节结构的蛇形机器人攀爬运动机理研究-中国指挥与控制学会.PDF
- 基于互联网数据的住宿业竞争力及其空间格局-地理科学进展.PDF
- 基于冯卡门类比的强化管污垢模型及抗垢机理-中南大学学报.PDF
- 基于利用效率限制的域耕地质量定级方法研究-中国农业大学土地.PDF
- 基于儿童视角的喝水环境创设.PPT
- 基于多小波分析的超声斑纹噪声抑制方法研究-CiteSeerX.PDF
- 基于工程教育专业认证的编译与操作系统教学思考-系统软件与软件.PDF
- 基于微引擎流水线的机器翻译系统结构-中科院计算所自然语言处理.DOC
最近下载
- 初中语文说明文阅读及答题技巧课件(47张课件).pptx VIP
- 2026届湖南省常德市第一中学高三数学第一学期期末联考试题含解析.doc VIP
- 徐埃小学汇报预案.ppt VIP
- 广东省百校2026届数学高三第一学期期末联考模拟试题含解析.doc VIP
- 染色体端粒和端粒酶.ppt VIP
- 2025-2026学年北师大版九年级数学上册期中考试卷(带答案).docx VIP
- 2025年民航招飞pat测试题目及答案.doc VIP
- 新目标(第二版)视听说B3U3 测试试卷答案.pdf VIP
- 2024电力建设全过程工程咨询导则第1部分输变电工程.pdf VIP
- 北师版四年级数学上册第三单元测试题含答案.pdf VIP
原创力文档


文档评论(0)