文字书写系统的计算语言学理论导读.PDFVIP

文字书写系统的计算语言学理论导读.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文字书写系统的计算语言学理论导读

文字书写系统的计算语言学理论 导读 香港理工大学计算学系 陆勤 1. 学科背景介绍 当我们提到某个语言的【文字】一词时,普遍的理解不仅包 括该文字所用的符号,还包括它的书写规律。在这里有必要解释 一下文字和书写系统的不同。文字(script)在本书中特指某个 语言的书写符号集,而书写系统(writing system)所指的不仅 是作书写用的符号,还包括符号所用的构件(graphemes),构件 的组成方法和相互之间的关系。举例来说,中文汉字是不同于英 文的文字,其书写系统也有很大区别,一个是表意构件的两维排 列,另一个则由字母拼写而成。日文作为一种书写系统,借用了 其它语言的文字,但日文有其提独特的书写规则,因此其书写系 统也是有别于它的书写系统。一般来说,如果文字符号所在选用 的图形有随意性,该符号称为字母(alphabet letter),而字母 没有拆解性,也没有构件的概念。但是,由字母拼写出来的文字 不是随意的,某些固定拼法的词位(lexeme)带有语言学信息, 才称为构件。在文字学中的书写法则(orthography)研究的是 字或词的构件的书写规律1。本文研究的书写系统是关于词形所 1 Orthography 在英汉字典里常翻成【正字法】,因为对中文来说,用【字】较为恰 当。而对大部分的拼写文字来说, orthography 研究的构件以【词】和【词形】作为 1 能反应的语言信息。还要说明的是,本文所指的书写系统基本对 象只是文字、文字的构件、以及从字或字母到词的构成。研究的 对象并不包括语言学里的语法(syntax)和语义(semantics)。 构件的最大集合只是到词,顶多会关联到复合词。 在文字学的范畴内,以往的研究较少使用计算语言学的各种 方法和工具。本文的作者史伯乐(Richard Sproat)从事文语 (text-to-speech, 文字到语音)转换的工作,是文语转换研 究的拓荒人之一,参与了最成功的 ATT 贝尔实验室的文语转换 系统的开发。在处理单一语言的文语转换基础之上,为使该系统 能够尽可能用最系统的方法扩展到其它文字的语音转换,就必须 要寻找各种语言文字的共性与差异,并尽可能的用形式化的方法 进行描述。只有这样,用计算机进行自动处理的程度才会提高。 本书中所阐述的理论就是在文语转换这个技术要求的大前 提下产生的,其目的是要提出一种跨越不同文字而对书写系统进 行形式化的描述方法(formal method),或者说是要建立一个可 操作的计算模型(computational model),用以表达从文字到语 音转换所需要的特征和规律。为证明该方法能够用于不同文字, 书中例举了超过十种以上的书写系统并在不同程度上描述了它 们的共性与特点。 以中文作为母语的读者,并不需要对所提及 的所有文字都有了解,有对英文的了解,就可以明白本书中所阐 述的理论。实际上本书可以增进从事计算语言学研究和开发工作 的读者对不同语言的文字的了解。也有助从事文字学和语言学工 对象,没有字的概念。为避免矛盾,在导读中在提到 orthography 时,回避直指【字】、 【词】,而将 orthography 一词翻成【书写系统法则】。在用到【词形】和【构词】时, 并不排除表意文字中【字形】与【构字】的书写规律 。 2 作的读者了解如何利用计算语言学的工具对所研究的对象进行 形式化的描述。 内容提要 中文常用【阅读】一词来描述读书的过程,说明【阅】与【读】 之间的紧密关系。我们要读出一篇中文文章时,在识别文字符号 的基础上还需断词得当、语法语义理解正确,才能知道每个字词 在文中的具体发音,这样才可能做到停顿有节,并合理的使用抑 扬顿挫,使听众对文字所表达的意思能一【听】了然。从计算语 言学或计算机技术的角度来看,我们可以把这个转换

您可能关注的文档

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档