- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文字书写系统的计算语言学理论导读
文字书写系统的计算语言学理论
导读
香港理工大学计算学系 陆勤
1. 学科背景介绍
当我们提到某个语言的【文字】一词时,普遍的理解不仅包
括该文字所用的符号,还包括它的书写规律。在这里有必要解释
一下文字和书写系统的不同。文字(script)在本书中特指某个
语言的书写符号集,而书写系统(writing system)所指的不仅
是作书写用的符号,还包括符号所用的构件(graphemes),构件
的组成方法和相互之间的关系。举例来说,中文汉字是不同于英
文的文字,其书写系统也有很大区别,一个是表意构件的两维排
列,另一个则由字母拼写而成。日文作为一种书写系统,借用了
其它语言的文字,但日文有其提独特的书写规则,因此其书写系
统也是有别于它的书写系统。一般来说,如果文字符号所在选用
的图形有随意性,该符号称为字母(alphabet letter),而字母
没有拆解性,也没有构件的概念。但是,由字母拼写出来的文字
不是随意的,某些固定拼法的词位(lexeme)带有语言学信息,
才称为构件。在文字学中的书写法则(orthography)研究的是
字或词的构件的书写规律1。本文研究的书写系统是关于词形所
1
Orthography 在英汉字典里常翻成【正字法】,因为对中文来说,用【字】较为恰
当。而对大部分的拼写文字来说, orthography 研究的构件以【词】和【词形】作为
1
能反应的语言信息。还要说明的是,本文所指的书写系统基本对
象只是文字、文字的构件、以及从字或字母到词的构成。研究的
对象并不包括语言学里的语法(syntax)和语义(semantics)。
构件的最大集合只是到词,顶多会关联到复合词。
在文字学的范畴内,以往的研究较少使用计算语言学的各种
方法和工具。本文的作者史伯乐(Richard Sproat)从事文语
(text-to-speech, 文字到语音)转换的工作,是文语转换研
究的拓荒人之一,参与了最成功的 ATT 贝尔实验室的文语转换
系统的开发。在处理单一语言的文语转换基础之上,为使该系统
能够尽可能用最系统的方法扩展到其它文字的语音转换,就必须
要寻找各种语言文字的共性与差异,并尽可能的用形式化的方法
进行描述。只有这样,用计算机进行自动处理的程度才会提高。
本书中所阐述的理论就是在文语转换这个技术要求的大前
提下产生的,其目的是要提出一种跨越不同文字而对书写系统进
行形式化的描述方法(formal method),或者说是要建立一个可
操作的计算模型(computational model),用以表达从文字到语
音转换所需要的特征和规律。为证明该方法能够用于不同文字,
书中例举了超过十种以上的书写系统并在不同程度上描述了它
们的共性与特点。 以中文作为母语的读者,并不需要对所提及
的所有文字都有了解,有对英文的了解,就可以明白本书中所阐
述的理论。实际上本书可以增进从事计算语言学研究和开发工作
的读者对不同语言的文字的了解。也有助从事文字学和语言学工
对象,没有字的概念。为避免矛盾,在导读中在提到 orthography 时,回避直指【字】、
【词】,而将 orthography 一词翻成【书写系统法则】。在用到【词形】和【构词】时,
并不排除表意文字中【字形】与【构字】的书写规律 。
2
作的读者了解如何利用计算语言学的工具对所研究的对象进行
形式化的描述。
内容提要
中文常用【阅读】一词来描述读书的过程,说明【阅】与【读】
之间的紧密关系。我们要读出一篇中文文章时,在识别文字符号
的基础上还需断词得当、语法语义理解正确,才能知道每个字词
在文中的具体发音,这样才可能做到停顿有节,并合理的使用抑
扬顿挫,使听众对文字所表达的意思能一【听】了然。从计算语
言学或计算机技术的角度来看,我们可以把这个转换
您可能关注的文档
- Twochargesof16pCand-65pCareinsideacubewithsides.ppt
- PCManagerMeeting.ppt
- 词典著作权纠纷中的是与非.PDF
- 基于规则的汉语句法分析方法研究1.PDF
- 光盘版《牛津高阶(第七版)》(OALD7)的现状研究.PDF
- 论网络信息生产3.PDF
- 重要提醒系统检测到您的帐号可能存在被盗风险.PDF
- 用微移动学习方式建构大学英语词汇教学合作互动新模式.PDF
- 行动装置散热技术之发展与应用需求.PDF
- 上海财经大学学生试场规则.PDF
- 2026年及未来5年麻混纺服装项目市场数据调查、监测研究报告.docx
- 2025年事业单位工勤技能-河南-河南铸造工三级(高级工)历年参考题典型考点含答案解析.docx
- 2026年及未来5年插座式定时器项目市场数据调查、监测研究报告.docx
- 2026年及未来5年空压机连杆瓦项目市场数据调查、监测研究报告.docx
- 2026年及未来5年涂装烘道生产线项目市场数据调查、监测研究报告.docx
- 2026年及未来5年男装羽绒茄克项目市场数据调查、监测研究报告.docx
- 2026年及未来5年重型塑料托盘项目市场数据调查、监测研究报告.docx
- 2026年及未来5年电影对开拉幕机项目市场数据调查、监测研究报告.docx
- 2026年及未来5年蔺草刺绣健康枕项目市场数据调查、监测研究报告.docx
- 2025年事业单位工勤技能-福建-福建动物检疫员三级(高级工)历年参考题典型考点含答案解析.docx
原创力文档


文档评论(0)