网站大量收购独家精品文档,联系QQ:2885784924

第六讲 计算语言学.ppt

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义 利用词法信息 湖上有几只美丽的白天鹅 加入规则:“如果交段与其后继字串组成名词,则将该歧义词首字单切,否则,确认该歧义词为词” 利用语义信息 例:学生会兴奋得手舞足蹈 学生/会/兴奋/得/手舞足蹈 学生会/兴奋/得/手舞足蹈 加入规则 “如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则该歧义字段成词” 利用语用信息 日本保留和尚使用的古代庙宇已经不多了 乒乓球拍卖完了 美国会通过对台售武法案 3、基于统计的分词方法 :通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 但是也有缺陷,如:了解答题的方法、他想出了解答的办法。 (三)、自动分词的问题: 1、歧义字段 (1)交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。 〔例〕“结合成” :结合/成,结/合成 让位移等于50厘米(让位移:让位/移、让/位移) 这种歧义字段占全部歧义字段的85%以上。 交集型歧义字段的消解: 伪歧义:虽然有歧义的可能,但是在真实的文本中只有一种切分结果,如:挨/批评; 爱/国家。这一种占约92.6%。 准歧义:通常只有一种切分结果:其/实质、解除/了。占5.5%。 真歧义:经常有两种切分结果:应用于; 从小学……。占1.9%。 因此可以把伪歧义的切分结果预先放到一张表中,其歧义消解可以通过直接查找实现。 (2)组合型歧义字段:汉字串AB被称作多义组合型切分歧义,如果满足A, B, AB同时为词。 他/站/起/身/来/。 他/明天/起身/去/北京/。 我一看他的/穿着/就知道他不是等闲之辈。 她今天是穿/着/一身礼服出去的。 你们/后天/再来吧 到/家/后/天/就黑了。 2、未登录词的处理: 未登录词:词典中未列入的词汇。包括固有名词、数词、时间词、专业及文化新词等。 吴立德在他的书上讲:一个经过人工分词的、含有15,000个词的法律语料库,其中竟然有30%的词没有登录在含70,000个词条的词典里,这个比例远远高于各种歧义字段在全文所占的比例1/110。因此在文本在计算机处理时,把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。 固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:“时间很快就过去了。”。这里的“时间”可以是人名!他姓“时”,名为“间”。当然也可以是表示“光阴”的那个时间,如何区别相当困难。 地名,一般都不会是词典中的词。如沈阳、沟帮子、新民、苏家屯等。也可以出现在词典里,如著名城市北京、上海。至于单位、公司名,那就复杂了,很难识别。我们只能通过局部自动识别方法来处理。例如选取未等录词的特征、前后缀标志、出现的频度、前后搭配的统计。 未登录词的识别:人名 如果不予处理,将导致为数可观的分词错误。 刘清楚楚动人.(例2) 利用从左向右扫描的最大匹配法进行切分: 刘 清楚 楚 动 人. 七 、机器翻译 (一)、机器翻译在国外的发展 1、草创时期: (1)、20世纪30年代的机械翻译 法国的阿尔尼楚和前苏联的特洛扬斯基 (2)、20世纪50年代计算机翻译 1949韦弗正式提出 1964美国乔治敦大学和IBM公司进行了世界上第一次机器翻译实验 (3)、20世纪60年代的ALPAC报告后的萧条 Automatic Language Processing Advisory Committee 语言自动处理咨询委员会 2、恢复期:20世纪70年代:开始注意句法和语义的研究 3、繁荣期:20世纪70年代末至今:开始商业化。 TAUM-METEO SYSTRAN 机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。   美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和1

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档