人工智能与机器翻译自动分词.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能与机器翻译 自动分词 ? 人工智能与机器翻译-自动分词2010-10-21 16:48部著作中的词语逐个逐个的切分出来。汉语不象拼音文字那样有自然切分标志,而且词语长短不一,词语的定义也不统一,语言学中对词的定义多种多样,造成切分的多样性,这也自然给自动分词的同一性带来很大困难。汉语中词语本身的词素、词、词组无明显的区分界限,没有一个统一的标准,许多东西都是凭经验和语感来划分。.这项工作如果全部交给计算机来作,就没有那么简单了。 尽管计算机自动分词在诸多方面存在着许多困难,但是由于自动分词是许多应用工作的第一步(也是自动翻译的第一步),这就促进了研究的持续不断,提出了不少方法,它们各有优缺点,也可能是基于特定环境的。 5.2.1典型的自动分词方法 正向最大匹配法和逆向最大匹配法 正向最大匹配法是最早提出的自动分词方法,它的基本思想是先取一句话的前六个字查字库,若不是一个词,则删除六个字的最后一个字再查,这样一直查下去,至找到一个词为止。句子剩余部分重复此工作,直到把所有的词都分出为止。逆向最大匹配法也一样,每次匹配不成功时去掉汉字串中最前面的一个字。 两法思路清晰,易于计算机实现,但由于试图用相对稳定的词表来代替灵活多变,充满活力的词汇,把词库搜索作为判词的唯一标准,因而具有很大的主观性和局限性。另外,这两种方法实际上否认了语言中的歧义现象。 在实际应用中,方法有所变化。如下述算法我们初始不是取六个字而是取长度最短词的个数。 A1:一条汉语语句分划成单一字符X1,X2,…,XM。 A2:决定语词中可能出现的词最大字符长度Lmax,最小字符长度Lmin。 A3:逆向匹配,取语句最后的Lmin个字查关键词库,若查不到,加入一个字重复此工作,直至字符数为Lmax为止。 A4:若实施A3查不到词,去掉语句中最后一个字,再实施A3,直至整个语句只剩下Lmin为止。 高频优选法 这一方法基于词频的统计、字与字之间的构成结合律和歧义切分等现象的分析而提出来的。根据《现代汉语频率词典》,对于报刊和政论性文章,不同音节词的词频构成为:双音节词大约有74%;三音节词大约有3.7%;单音节词大约有17.2%;而五以上字音节词则大约只有0.4%左右。汉语是一字一音节,因而也可以说,两字组词的频率比其它所有方式的概率加起来都还要多。自动分词时首先考虑两字词,然后再考虑单字词,如此频率低的词语最后才考虑。这种方法提高了分词效率,但对歧义问题也无能为力,出错率并不低。 其它方法 设立切分标志 切分标志有自然和非自然之分。自然切分标志是指文章的非文字符号,例如标点符号等等;非自然切分标志是利用词缀和不构成词的词(单字词等等)。设立切分标志方法的基本思想就是通过建立非自然切分标志的一张表存储于计算机中用程序来识别所有的非自然标志。这样一来,一个句子链将被化为若干短链,然后再用其它切分方法进行各种细加工,这种多方法合作的综合应用,途径增多,可以大大提高效率。 扩充转移网络分词法 它是以有限状态机概念为基础的方法。有限状态机只能识别正则语言,对有限状态机作的第一次扩充可以使其具有递归能力,这样就形成递归转移网络(RTN)。在RTN中,弧线上的标志不仅可以是终极符(语言语句中的各种词语)或非终极符(还没有推导完的词类、符号等等,例如名词N,动词V,形容词A等等),还可以调用另外的子网络名字的非终极符(例如字或字串的成语条件)。这样,计算机在运行某个子网络时,就可以调用另外的子网络,还可以递归调用。目前大多数的自然语言理解系统都把词典组织成一个表,表是静态的。使用扩充转移网络来组织词典就可以构成一个动态的词典,词法扩充转移网络的使用,它使分词处理和自然语言理解系统的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。 全自动词典切词 这种方法完全使用切词规则切分词语,其规则中的参数由词典提供。该方法可以部分解决歧义问题,但因是匹配切词,效率不高。 规则描述语言切词法 规则描述语言是用以描述汉语分词、分析和生成规则的一种工具。其中,整个规则语言将由若干个不同性质的规则块构成,而每一个规则块又包括多条规则,这些规则块的结构一般采用多层次的树型结构(当然,也可以采用其它结构,例如链式结构)。该方法对正确描述汉语是一种有意义的尝试,值得深入研究。 多遍扫描联想法 这种方法是使用切分标志把文本切分成若干子串。它一般分成两步进行:第一步,使用自然切分标志对文本进行预处理;第二步,利用非自然切分标志结合联想库对文本进行有效的分割。这两布完成以后,再利用实词的词库和联想库将所有词群细分为词。在这种方法的操作中,分词时将要充分利用各种语法知识、联想和回溯机制同时作用分割和细分阶段,其目的在于更有效的解决歧义组合结构的切分问题,并且兼有自动纠错和检错这样的特殊功能。这种方法

您可能关注的文档

文档评论(0)

lxm + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档