英文的词法分析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
哈工大语言技术中心 词法分析 概述 英文的词法分析 英文词识别 英文词形还原 中文的词法分析 形态分析 分词 中文未登录词识别 命名实体识别 术语、新词 概述 词:是自然语言中能够独立运用的最小单位,是语言信息处理的基本单位。 词法分析:词汇层的分析技术 词的识别:将句子转换成词序列。 形态分析:词的构成、形态变化、词形还原。 词性标注:标记句子中的词的词性。 英文的词法分析 英文的词法分析 屈折型语言: 词之间一般有边界标记 词的形态变化丰富。 词法分析 词的识别() 将句子转换成词序列。 例子:’  ’ 词形还原() 分析词的形态结构:词的原型形态变化。 例子:  ;  词性标注: () 英文词的识别—— 数字: 缩略(包含不同的情况): 字母-点号-字母-点号组成的序列,比如:. 、. 等; 字母开头,最后以点号结束,比如:. .、. ; 包含非字母字符,比如: $ 带杠的词串,如:,, 带瞥号的词串,如: 带空格的词串,如: , “ 其他:如网址( )、公式等 英文词的识别—— 常见的特殊形式的英文词识别 .、. 、 、 . 、 . 等放入词典; ’ 、 ’ ’ {, , , , , }’ {, , , , , } ’ ; ’ 英文词的识别—— 常见的特殊形式的英文词识别 {, , , , , , }’ {, , , , , , } ’ ; ’ ; ’ ’ ? ’ ? ’ (如果 为单词原型) (如果 为过去分词) 问题 例外较多,跟文本来源有关 歧义现象(如点号的句子边界歧义) 数字的识别 数词的识别一般可以用有限状态自动机来实现 识别分数的正则表达式: [] [] 例子: 识别百分数的正则表达式: ([ ]) ? [] ( . []* ) ? 例子: , 识别十进制数字的正则表达式: ( []( , )? ) ( . [] )? 例子: 算法 输入:一段文本 输出:词序列 算法:(略) 英文词形还原—— 屈折型语言的词语变化形式: 屈折变化:即由于单词在句子中所起的语法作用的不同而发生的词的形态变化,而单词的词性基本不变的现象,如(, , )。识别这种变化是词法分析的最基本的任务。 派生变化:即一个单词从另外一个不同类单词或词干衍生过来,如 􀃅,英语中派生变化主要通过加前缀或后缀的形式构成;在其他语言中,如德语和俄语中,同时还伴有音的变化。 复合变化:两个或更多个单词以一定的方式合成一个新的单词。这种变化形式比较灵活,如, 等等。 的目的:将上述变化还原 英文词形还原—— 规则变化的词形还原 结尾的动词过去时,去掉; * →* (., → ) * → * (., → ) * → * (., → ) 结尾的现在分词, * → * (., → ) * → * (., → ) * →* (., →) 结尾的动词单数第三人称; * → * (., → ) * → * (., → ) * → * (., → ) 英文词形还原—— 规则变化的词形还原 结尾的副词 * → * (., → ) 结尾的形容词比较级、最高级 * →* (., → ) * → * (., → ) 结尾的名词复数, 结尾的名词还原时做相应变化: → , → , → , . 名词所有格’, ’ 英文词形还原—— 不规则变化的动词、名词、形容词、副词的词形还原 , , , , 表示时间、百分数、货币、序数词的词形还原 → ,标明时间名词; →去掉 后,记录该数字为序数词; $ → 去掉$,记录该数字为名词(美圆); → %作为一个数词 英文词形还原—— 合成词的词形还原 分数词:基数词和序数词 。 合成名词:{名词、形容词、动词}+名词 , , 。 合成形容词:形容词+名词+、形容词+现在分词、副词+现在分词、名词+过去分词、名词+形容词等 , , , 等。 英文词形还原—— 合成词的词形还原 合成动词:{名词、形容词、副词}+动词 带连字符“”的合成词 , , , , , , 英文词形还原—— 词形还原的一般方法 查词典,如果词典中有该词,直接确定该词的原形; 查找不规则词形变化的词表,如果词典中有该词,直接确定该词的原形; 根据词形变化规则集,对单词进行还原处理,如果还原后在词典中找到该词,则得到该词的原形; 上述方法均失效,则作为未登录词处理。 英文词形还原的程度 词干层 如: 词根层 如:  分析程度取决于自然语言处理系统的深度: 不解决未登录词,分析到词干层

文档评论(0)

开心就好 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档