- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
字本位与中文信息处理.doc
字本位与中文信息处理
——解析“字与字组的关系”探索“汉语形式化”新路
(典型实例:由“一字精解”到“字字精解”)
邹晓辉
0756-5505041 qhkjy@
清华科技园(珠海)融智文化基因工程研究所(筹)
519125 珠海市斗门区井岸桥东恒美花园15-2栋201号
【摘要】本文是笔者探索汉语及中文形式化信息处理新方法的总结。英语和基于英语的形式化方法及其好处学界周知,转换生成语法及其后续的各派理论的发展早已为计算机科学和计算语言学普遍接受或了解。模仿它们的汉语词本位、短语本位和句本位理论违背了汉语的特点。因为“汉语中没有词”(赵元任)。“这种跟着西方人思路转的研究是无法实现赶超国际水平的目标的”(徐通锵)。英语形式化方法突破不了中文信息处理的技术瓶颈。如:词的“切分”与“标注”就面临“消歧”难题(俞士汶、孙茂松、黄河燕等)。本项研究课题“摆脱了流行思路的束缚,以字本位理论为基础研究中文信息处理的问题,探索形式化新路。这抓住了汉语特点的关键”(徐通锵),因为“字是中国人心目中的中心主题”(赵元任)。
【关键词】基础语言学,字本位,计算语言学,形式化,计算机辅助,中文信息处理
【专家评语】
“这是一个前沿性的课题。现在语言信息处理的思路大多受国外语言理论的影响,而如何根据汉语的特点,运用信息科学的技术,进行中文信息处理,赶超国际水平,是我们急需探索和解决的一个重大课题。”(本文的)“方向正确,思路清楚,立论有据,是有原创性的新著,其形式化的研究成果也具有广泛的使用价值”。(语言学专家:徐通锵)
“《字本位与中文信息处理的基础——解析“字与字组的关系”探索“汉语形式化”新路》是作者经过长期深入研究和在计算机上通过实践检验的重大科研成果。这个成果的理论意义和实用价值在于:根据汉语的实际特点,运用信息科学先进技术从事中文信息处理,赶超国际水平。”(计算语言学专家:鲁川)
“它较好地实现了与国际学术研究的接轨,因而处于国内同类课题研究的先进水平;作者倡导的融智学新范式和协同智能概念体系,不仅对于我国语言科学和信息科学及其相关学科的研究具有重要的学术探索价值,而且对于建立面向多文种语言信息处理的计算语言数据库和开发拥有自主知识产权的信息产品具有广泛的实际应用价值。”(机器翻译专家:易绵竹)
“语言的形成是一个十分复杂的过程,语言所表达的语义的解析更是一个复杂的问题。本书作者通过对中文语言文字的长期研究,积累了丰富的知识,提出了许多有见地的观点。本文提出了以字为中心,从字出发分析中文语义的一种新的方法。这些思想对于中文信息的自动化处理都提供了一种新的途径。”(计算机科学专家:奚建清)
“(本文)内容新颖,有较高学术水平,…。消解歧义是自然语言处理的关键,本(文)提出的理论和方法,可以对于这个问题的解决提供新的思路。”(自然语言处理专家:冯志伟)
“协同智能计算语言数据库的设计方案中的13张表很有新意。如果对于汉语的这13张表一旦建立了起来,那么汉语分析中的各个层次上的歧义就会比较容易地解决。这是一件有创建性的工作。”(清华大学智能技术与系统国家重点实验室专家:苑春法)
引言
长期以来,我们一直缺乏适合汉语及中文自身特点的系统化的语法理论,这严重地制约了中文信息处理的研究进展。《语言论——语义型语言的结构原理和研究方法》(1997徐通锵)和《基础语言学教程》(2001徐通锵)独树一帜建立了汉语“字本位”理论。本文在此基础之上做了进一步的基础性研究,在尝试对字与字组及其各种关系进行形式化描述的同时,也尝试对汉语及中文信息处理的形式化方法进行大胆创新。
由本文的标题和副标题可知,“字与字组的关系”的探讨是汉语“字本位”理论关注的基础性问题(属于基础语言学领域);“汉语形式化”是中文信息处理实践面临的根本性问题(属于计算语言学领域)。两方面结合导致本论题。本文的缘起:北大中文系语言学专家对字的认识分歧(至今尚未达成普遍一致的共识)。试问:作为自然人的专家尚且无法消除的分歧,怎么让计算机系统去重用?这类性质的难题也是主张强人工智能观点的中文信息处理专家们所面临的棘手问题。如,中科院计算机语言工程研究中心机译专家就说:对机器翻译而言,只有一个难题,就是消歧。清华大学计算机系自然语言处理课题组专家也明确地指出汉语在“分词”与“标注”上存在技术瓶颈。北大计算语言学研究所专家还十分明确地指出(汉语及中文的)形式化非常困难。中国社科院语言学研究所机译专家公开指出语言学理论滞后制约了中文信息处理技术的发展。
同样研究自然语言,不同的学科有不同的视角,普通语言学站在人类智能主体的立场,采用的是自然人的视角;计算语言学站在人工智能代理的立场,采用的是计算机的视角;工程融智学站在协同智能计算系统的立场,采用的是自然人和计算机两者交互协同的视角。本文就是对从(
您可能关注的文档
最近下载
- 【期货市场技术分析】完整版——约翰.墨菲.doc VIP
- 秋季养生ppt课件.pptx
- 2023年北京电影学院导演专业真题.docx
- 课程设计-基于systemview的2ask信号调制与解调 .pdf VIP
- 2023年北京电影学院部分专业历届校考真题汇编.pdf VIP
- 絮凝剂对MBR活性污泥理化性质的影响研究.pdf VIP
- 2026年高考作文素材积累之九三阅兵:这一刻,与祖国同频共振.docx VIP
- 2025年辽宁省初中学业水平考试英语模拟试卷试题(含答案).pdf VIP
- 2025年辽宁省大连市中考英语模拟试卷.docx VIP
- 2025年中考英语冲刺模拟试卷-辽宁地区-学生版.pdf VIP
文档评论(0)