- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
應用语言学概论
应用语言学概论
计算语言学:
通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。
计算语言学有时也叫做计量语言学,数理语言学、自然语言理解、自然语言处理、人类语言技术
处理汉语的计算语言学通常也叫做“中文信息处理”
中文信息处理的三个阶段:
字处理:输入、显示、排序、排版;字形、字量;
词处理:词语切分、语法属性标注、词汇单位、词汇统计、词语构成、义项划分、义项统计
句处理:语法搭配、句型、句式、语法组合、
下面是对汉字显示问题的探讨
走进计算机汉字字库(《光明日报》98.9.8)
王 生
随着计算机的推广和普及,计算机汉字字库也一步一步地走向我。但人们对计算机汉字字库是如何产生的还不是很清楚。
汉字字库的发展大致经历了三个阶段,最初是点阵字库,之后是向量字库,现在则用曲线字库。一套精美的汉字字库从设计到最后成型,一般需要2-3年的时间。汉字字库的开发生产的流程大致可以分为以下几个阶段:字体选型、字稿设计、字的扫描和数字化拟合、人工修字和补字、质量检查、成库、功能测试。
字体选型是字库开发的基础工作。任何一套字体的选定都要经过反复的比较、论证、试做,只有在字体风格、规范程度、字稿质量、美观性等各方面都具有相当水平,才可以确定选用。计算机里使用的一种字种字体都要有一套相应的字库。市场上不仅可以见到宋、仿、黑、楷、隶书等传统印刷字体,还可以见到行楷、姚体、舒体、美黑等一大批风格各异、特点突出的新字体。据悉,北大方正现在已经开发出72种简繁体字库。
汉字字库技术有新突破
记者 刘德金(计算机世界报 1994年 第27期)
近十年来我国的汉字信息处理技术得到了较大进展,推动了我国计算机应用技术的发展。单就汉字字库技术来讲发展也是相当快的,在点阵字库的基础上,发展了矢量汉字技术、曲线汉字字库技术,这些字库技术在提高汉字处理的分辨率、压缩存储容量方面都已经有了明显的进步。但这些字库技术都是将每个汉字看成一个独立的不可分的基本单位,字库描述的基本单位仍然是字,描述一个字的轮廓仍然占用较多的存储空间。根据中国汉字是按偏旁、部首结构而成的这一特点,很多专家学者做为汉字基本描述单位来构造汉字整字的新思路,并且也做了大量的工作,但由太大,只用简单拼凑的办法拼出来的字很不理想,所以至今这种字库设备未被计算机厂家采纳。
长沙工程兵学院曾冬初先生经多年的研究实现了这一理想,他研究出了一种高精度、省内存的多级结构汉字字库技术。其基本思想是充分利用汉字的笔划数远远小于汉字字符集这一实际,将汉字条形描述由上到下细分成若干级,每级分别编码,最低级是以笔划或组成笔划的曲线段为基本描述单位。利用汉字多级结构原理,形成公用的多级结构文件。技术上突破的关键在于对任何一个整字进行结构描述进,利用了多级座标平移、旋转、放大及缩小技术进行优化造出令人满意的字型。目前曾先生已研制出含五种字体的国标汉字集(含6763个汉字)
五笔字型更深远的意义还在于它以自己特有的快捷、准确,证明汉字是可以适应现代科技时代需要的。长期以来汉字必须改革的一个坚强理论支柱就是汉字不适应现代科技发展的要求,不适应电子计算机的发展,难以进行中文信息处理。而现在证明,汉字在电脑中不仅可以进行处理,而且处理的速度可以很快。它的输入速度已经超过了英文字母的全拼式输入方法。汉字已经不再是一个过了时的古代社会遗物。
一地在要工
上是中国
有人我
“词”单位的研究
“词单位”的研究是词汇研究的一项基础工作。
词的大小,词的切分,直接影响到“词单位”的存在。
汉语的“词”是什么?汉语的词概括什么来区分?
汉语“词”的认定
乌云 白云 彩云 阵云 黑云
校景 校道 校服 校警 校花 校舍 校区 校规
喷漆 喷气 喷油 喷饭 喷汤 喷粪
词表的提取
“词单位”的集成,就是词表的形成。
词表是某领域词汇全貌的反映。
从大规模语料中提取词表,就是完成从最原始的“矿料”中提取成品的任务,是一项要经历多个环节的复杂工作。
词典语料库的词表——成熟、稳定的词语——研究重心是有与无;
真实语料的词表——语言与言语的混成物——研究重心是是与否
“核心语料库”
本文所利用的语料是国家语委“通用语料库”中的核心语料库。
“核心语料库的字数为2000万字,由7000万语料中筛选出来。由于《选材原则》是经几次专家论证确定的,核心语料库的语料筛选工作,在语料分科、年限划分、比例、字数等方面基本上仍依照《选材原则》进行。”(《说明》)
核心语料库的特点:
真实语料:包括语言词与言语词;
加工语料:分词与词性标注;
机器处理与人工干预共同作用的产物:
在提取词表的工作中,碰到了许多理论与实践上的问
文档评论(0)