如何让电脑真正懂汉语？——一种以许慎的六书理论为母型的汉语处理模型.pdfVIP

下载本文档

14
0
约2.11万字
约 16页
2019-01-10 发布于北京
举报

如何让电脑真正懂汉语？——一种以许慎的六书理论为母型的汉语处理模型.pdf

逻辑学研究 2012 年第2 期，1–49 文章编号：1674-3202(2012)-02-0001-49 如何让电脑真正懂汉语？ ——一种以许慎的“六书”理论为母型的汉语处理模型* 徐英瑾复旦大学哲学学院 yjxu@fudan.edu.cn 摘要：哲学家塞尔曾指出，任何一台处理汉语输入的计算机都不能够像真人那样理解汉语，因为计算机无法获取汉语表达式的语义内容。他的这个论证，既预设了语义学和句法学之间的二分，而且也预设了一种外在论式的语义学观点。上述两个预设在本文中都会受到挑战。首先，本文将采纳一种内在论的（并且是准整体论）的语义学进路：根据此进路，意义完全可以在不直接牵涉到和外部对象的关系的情况下而被带入语义网。此外，本文所试图构建的语义学模型也不是句法驱动的——换言之，在该模型中，并没有任何语义中立的原则可以告知系统，复合语义是如何从“原子”语义中生成的。毋宁说，“原子”语义之间的亲和性，便已然在复合语义的构成中扮演了枢纽性角色。需要指出的是，关于语义融合的语义学难题，绝非当代语言学家和语言哲学家的专利。实际上，它早在东汉学者许慎的“六书”论中就已得到触及。根据许论，只要一个汉字的构件的语义得到了其它汉语表达式的恰当注解，该汉字本身的语义也便可得到确认。在本文中，许慎的“六书”论将以一种可计算的方式而得到系统化的重构，而该重构的技术基础则是王培先生发明的“纳思系统”（非公理化推理系统）。在这种重构基础上，现代汉语中语词的语义复合方式，也可以得到一种新颖的理解。关键词：自然语言处理；纳思系统；六书；汉字中图分类号：B81 文献标识码：A 一、导论：从“塞尔诘难”说起 “自然语言处理”（Natural Language Processing，以下简称为NLP）是人工智能（Artificial Intelligence，以下简称为AI）研究中历史最悠久、最受公众关注、且最富挑战性的研究领域之一。其终究工作目标，便在于使得计算机能够以自主的、无监督的方式完成对于人类自然语言输入的处理，并在人—机交互界面上给收稿日期：2012-05-10 *致谢：王培先生认真审读了本文初稿，并提出了很多批评意见。本项目研究，得到了霍英东教育基金会第 12 届青年教师资助项目（NO. 121095）、复旦大学“985 工程”三期整体推进人文学科项目（NO. 2011RWXKYB038 ）, 以及全国优秀博士论文后续资助项目（NO.200701）的资助。 2 逻辑学研究第5 卷第2 期 2012 年出可为人类用户所认可的输出。早在上世纪五十年代，图灵就在经典论文《计算机器和智能》（[23]）中将机器是否具有智能的关键性指标，定为其是否具有在行为表现方面堪比人类用户的NLP 能力。而哲学家塞尔（[21]）对“机器智能不可能”的论证，亦以NLP 为切入点。在他看来，即使一台机器能够在外部行为上具有和人类相等或相似的NLP 能力（如汉语理解能力），它也无法真正理解汉语，因为对于汉语表达式的成功的句法操作（syntactic manipulations）无法保证操作者亦能由此获悉其语义内容（semantic contents）。换言之，至少在图灵和塞尔看来，是否能够在NLP 领域内真正跨越某种实质性的人—机界限，已经成为衡量 AI 事业成败的试金石之一。不过，在计算机科学的奠基人图灵看来，AI 终有一日能够通过NLP 这条华容道，而哲学家塞尔则认为这一天永远不会到来（塞尔对AI 的这一批评，下文简称为“塞尔诘难”）。然而，塞尔的断言是否下得有点仓促呢？看得更深一点，他对于“计算机只能处理句法，而不能处理语义”的评断，在很大程度上是建立在一种外在主义的语义观（externalist semantic theory）之上的：任何表征的语义内容，无非即表征自身和其所表征的外部对象之间的关系——而他本人则试图通过“汉字屋思想实验”指出，任何一种编程计算机都无法获取这种语义关系。但问题是，从语言哲学角度看，外在论的语义观本身也只是诸种

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

如何让电脑真正懂汉语？——一种以许慎的六书理论为母型的汉语处理模型.pdfVIP