- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5 单词和词组分析
; 对于机器翻译研究来说,本章的第一任务是要建立语言的机器词典, 这一机器词典是多语言的。例如各自的藏, 英, 汉语机器词库。
单词与词组的处理与分析, 对于汉语来说, 首先必须要进行单词的自动切分。自动切分歧义部分是解决的难点, 不但可能用到规则推理, 而且还可能用到语法分析, 语义用分析, 更详细的过程可以结合第六 章等一起研究。
词语分类和兼类的分析与处理是本章研究的又一重点。
本章的最后将研究词处理的一些细节问题。
; 人工翻译离不开词典,当然,机器翻译也离不开机器词典。机器词典也被称为电子词典,简称词典。机器词典的作用在机器翻译中是最重要的,因为做任何机器翻译工作都必须通过查机器词典来得到相关的翻译元素---单词和词组。如何有效的组织、建立机器词典,如何更好地利用机器词典中包含的各种知识,是一个值得深入研究的课题。; 5. 1 . 1 基于分析和转换的机器翻译方法; 对于机器翻译系统来说,为了适应不同专业领域的翻译要求,需要配有大量的专业词汇。因此,机器翻译系统的词典又可以分为通用词典和专业词典两部分。如专门的缩略语词典、特殊字词典等等。还可以把通用词典再细分为名词词典、动词词典、成语词典等等。
机器词典的组织机构对于提高词语的检索速度是非常主要的。一定的组织结构形式和相应的算法相配合,可以节约存储空间,提高检索速度,从而提高机器翻译系统的整体翻译速度。
机器词典从存储形式来看,可以分为定长字段型、变长字段型和定变长混合型三种类型;从索引格式看,可以分为一级索引和多级索引等等。
词语的长短是不同的,例如,某些常用词的信息特别丰富,书本词典可以占满几页,而有一些词语却只要一行。这样,如果所有词语都使用定长字段,则必须依据最长词语确定字段长度,而相当多的短词语将浪费巨大的存储空间。所以,一般情况下一条词语的有关信息的存储都采用变长形式,这可以用链接技术实现。;5 . 2 自动分词
汉语自动分词是我国计算机科学研究的重要课题之一, 它是自然语言理解、自动翻译、 电子词典等信息处理的基础性工件。所谓分词, 就是要把一句话, 一篇文章甚至一部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志, 而且词语长短不一, 词语的定义也不统一, 语言学中对词的定义多种多样, 造成切分的多样性, 这也自然给自动分词的同一性带来很大困难。 汉语中词语本身的词素、词、词组无明显的区分界限, 没有一个统一的标准, 许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作, 就没有那么简单了。
尽管计算机自动分词在诸多方面存在着许多困难, 但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步), 这就促进了研究的持续不断, 提出了不少方法, 它们各有优缺点, 也可能是基于特定环境的。
;5. 2 . 1 典型的自动分词方法
5 . 2 . 1 . 1 正向最大匹配法和逆向最大匹配法
正向最大匹配法是最早提出的自动分词方法, 它的基本思想是先取一句话的前六个字查字库, 若不是一个词, 则删除六个字的最后一个字再查, 这样一直查下去, 至找到一个词为止。 句子剩余部分重复此工作, 直到把所有的词都分出为止。逆向最大匹配法也一样, 每次匹配不成功时去掉汉字串中最前面的一个字。
两法思路清晰, 易于计算机实现, 但由于试图用相对稳定的词表来代替灵活多变, 充满活力的词汇, 把词库搜索作为判词的唯一标准, 因而具有很大的主观性和局限性。另外, 这两种方法实际上否认了语言中的歧义现象。
在实际应用中, 方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。
; A1: 一条汉语语句分划成单一字符X1,X2,…,XM。
A2: 决定语词中可能出现的词最大字符长度Lmax, 最小字符长度 Lmin。
A3: 逆向匹配,取语句最后的Lmin个字查关键词库, 若查不到, 加入一个字重复此工作,直至字符数为Lmax为止。
A4: 若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下L min为止。;5 . 2 . 1 . 2 高频优选法
这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同音节词的词频构成为:双音节词大约有74%;三音
您可能关注的文档
最近下载
- 校园突发事件应急处置机制、应急处置预案范本.docx VIP
- 沥青混凝土路面施工方案(1).doc VIP
- 施工场地治安保卫管理计划.doc VIP
- 跨境生态补偿模式研究-洞察及研究.docx VIP
- 希沃白板培训教程.pptx
- 《中华人民共和国科学技术普及法》培训解读课件.pptx VIP
- EPC项目物资采购、分包工作的总体安排与资源配置.docx VIP
- 《液化烃球罐注水设施安全技术规范》T/CPCIF 0432-2025团体标准.docx VIP
- 2024年江西省“振兴杯”金属材精整工竞赛考试题库(含答案).pdf VIP
- 职业道德高级技师题库,高级技师鉴定职业道德复习题.doc VIP
文档评论(0)