- 1、本文档共92页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * 利用前趋字串和后继字串在词法、句法、语义、语用三方面的信息排除歧义 利用词法信息 湖上有几只美丽的白天鹅 加入规则:“如果交段与其后继字串组成名词,则将该歧义词首字单切,否则,确认该歧义词为词” 利用语义信息 例:学生会兴奋得手舞足蹈 学生/会/兴奋/得/手舞足蹈 学生会/兴奋/得/手舞足蹈 加入规则 “如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素,则歧义字段的尾字单切,否则该歧义字段成词” 利用语用信息 日本保留和尚使用的古代庙宇已经不多了 乒乓球拍卖完了 美国会通过对台售武法案 3、基于统计的分词方法 :通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。 但是也有缺陷,如:了解答题的方法、他想出了解答的办法。 (三)、自动分词的问题: 1、歧义字段 (1)交集型歧义字段:汉字串AJB被称作交集型切分歧义,如果满足AJ, JB同时为词(A, J, B分别为汉字串)。此时汉字串J被称作交集串。 〔例〕“结合成” :结合/成,结/合成 让位移等于50厘米(让位移:让位/移、让/位移) 这种歧义字段占全部歧义字段的85%以上。 交集型歧义字段的消解: 伪歧义:虽然有歧义的可能,但是在真实的文本中只有一种切分结果,如:挨/批评; 爱/国家。这一种占约92.6%。 准歧义:通常只有一种切分结果:其/实质、解除/了。占5.5%。 真歧义:经常有两种切分结果:应用于; 从小学……。占1.9%。 因此可以把伪歧义的切分结果预先放到一张表中,其歧义消解可以通过直接查找实现。 (2)组合型歧义字段:汉字串AB被称作多义组合型切分歧义,如果满足A, B, AB同时为词。 他/站/起/身/来/。 他/明天/起身/去/北京/。 我一看他的/穿着/就知道他不是等闲之辈。 她今天是穿/着/一身礼服出去的。 你们/后天/再来吧 到/家/后/天/就黑了。 2、未登录词的处理: 未登录词:词典中未列入的词汇。包括固有名词、数词、时间词、专业及文化新词等。 吴立德在他的书上讲:一个经过人工分词的、含有15,000个词的法律语料库,其中竟然有30%的词没有登录在含70,000个词条的词典里,这个比例远远高于各种歧义字段在全文所占的比例1/110。因此在文本在计算机处理时,把汉语未登录词从文本中摘出来可能比一般的分词问题更重要。 固有名词主要的是人名,地名,单位公司名。对西方语言来说,头一个字母是大写的,比较容易识别,但是对于汉语就不容易。例如:“时间很快就过去了。”。这里的“时间”可以是人名!他姓“时”,名为“间”。当然也可以是表示“光阴”的那个时间,如何区别相当困难。 地名,一般都不会是词典中的词。如沈阳、沟帮子、新民、苏家屯等。也可以出现在词典里,如著名城市北京、上海。至于单位、公司名,那就复杂了,很难识别。我们只能通过局部自动识别方法来处理。例如选取未等录词的特征、前后缀标志、出现的频度、前后搭配的统计。 未登录词的识别:人名 如果不予处理,将导致为数可观的分词错误。 刘清楚楚动人.(例2) 利用从左向右扫描的最大匹配法进行切分: 刘 清楚 楚 动 人. 七 、机器翻译 (一)、机器翻译在国外的发展 1、草创时期: (1)、20世纪30年代的机械翻译 法国的阿尔尼楚和前苏联的特洛扬斯基 (2)、20世纪50年代计算机翻译 1949韦弗正式提出 1964美国乔治敦大学和IBM公司进行了世界上第一次机器翻译实验 (3)、20世纪60年代的ALPAC报告后的萧条 Automatic Language Processing Advisory Committee 语言自动处理咨询委员会 2、恢复期:20世纪70年代:开始注意句法和语义的研究 3、繁荣期:20世纪70年代末至今:开始商业化。 TAUM-METEO SYSTRAN 机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。 美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和1
您可能关注的文档
- 第03章 临床生物化学诊断试验的性能基础与评价.ppt
- 第03章粉碎与分级_资源加工学.ppt
- 第3-1章接地设计.ppt
- 第3节 鉴赏人物形象.ppt
- 第3章 IP地址规划和设计方法.ppt
- 第3章 mcs-51指令系统.ppt
- 第3章 UG编程 铣型腔.ppt
- 第3章 餐饮经营场所设计.ppt
- 第3章 蜂窝通信网络定位.ppt
- 第3章 高分子流体的流变模型.ppt
- 北京大学药理学课件第四十四章--抗病毒药和抗真菌药.pptx
- 20115al corporation-申说明订阅图片任务组2214 an632.pdf
- 周新闻稿-品牌故事版.pdf
- 说明m1 xx markscheme biology sl paper 2生物学纸2TZ1.pdf
- 没有什么让害怕课程计划1nothing scares med38吓到.pdf
- vcds隐藏功能技术说明.pdf
- 坚定资源持续竞争优势杰jay barneyrabbit xu shi.pdf
- 说明确保卡并带上个趋势client当场选择哪种与它们相关reclaim responsibility收回责任.pdf
- 合创生产计划优化系统httc.pdf
- 房屋课程计划级araz lamyhouse.pdf
最近下载
- 新能源汽车技术 课件 项目三 新能源汽车安全操作的规范认知.pptx
- 2025年中考语文总复习三年中考真题分类复习专题10古诗文默写.docx VIP
- 叉车及叉车电池知识.doc
- 幼儿园小班安全教育课.ppt VIP
- 苏教版六年级下册数学全册教学课件(2024年春季修订).pptx
- 路斯特ServoC,操作手册.pdf
- 公共英语专升本3800个英语单词资料讲解.docx
- 区块链技术及应用-PPT课件(全).pptx
- 中信建投-机械设备-2025年机器人行业系列报告之一:灵巧手高灵活度末端执行器OptimusGen-3将推动微型丝杠、腱绳-传感器需求扩张.pdf VIP
- 网络系统建设与运维(中级)全套教学课件.pptx
文档评论(0)