- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算语言学-词法分析.ppt
词法分析 徐志明 哈工大语言技术中心 词法分析 概述 英文的词法分析 英文词识别 英文词形还原 中文的词法分析 形态分析 分词 中文未登录词识别 命名实体识别 术语、新词 概述 词:是自然语言中能够独立运用的最小单位,是语言信息处理的基本单位。 词法分析:词汇层的分析技术 词的识别:将句子转换成词序列。 形态分析:词的构成、形态变化、词形还原。 词性标注:标记句子中的词的词性。 英文的词法分析 英文的词法分析 屈折型语言: 词之间一般有边界标记 词的形态变化丰富。 词法分析 词的识别(Tokenization) 将句子转换成词序列。 例子:I’m a student ? I /’m/ a/ student/ 词形还原(Lemmatization) 分析词的形态结构:词的原型+形态变化。 例子:takes ? take + ~s;took ? take + ~ed 词性标注:POS (Part-of-Speech) Tagging 英文词的识别——Tokenization 数字:123,456.78 90.7% 3/8 11/20/2000 缩略(包含不同的情况): 字母-点号-字母-点号组成的序列,比如:U.S. 、i.e. 等; 字母开头,最后以点号结束,比如:Mr. Prof.、Dr. ; 包含非字母字符,比如:ATT Micro$oft 带杠的词串,如:three-year-old,one-third,so-called 带瞥号的词串,如:Im cant dogs lets 带空格的词串,如:and so on,ad hoc“ 其他:如网址( )、公式等 英文词的识别——Tokenization 常见的特殊形式的英文词识别 Prof.、Mr. 、 Ms 、 Co. 、 Oct. 等放入词典; Let’s 、 let’s = let + us I’am = I + am {it, that, this, there, what, where}’s = {it, that, this, there, what, where} + is can’t = can + not; won’t = will + not 英文词的识别——Tokenization 常见的特殊形式的英文词识别 {is, was, are, were, has, have, had}n’t = {is, was, are, were, has, have, had} + not X’ve = X + have; X’ll = X + will; X’re = X + are he’s = he + is / has = ? she’s = she + is / has = ? X’d Y = X + would (如果Y 为单词原型)= X + had (如果Y 为过去分词) Tokenization问题 例外较多,跟文本来源有关 歧义现象(如点号的句子边界歧义) 数字的识别 数词的识别一般可以用有限状态自动机来实现 识别分数的正则表达式: [0-9]+ / [0-9]+ 例子:12/21 识别百分数的正则表达式: ([+ | -]) ? [0-9]+ ( . [0-9]* ) ? % 例子: -5.9%, 91% 识别十进制数字的正则表达式: ( [0-9]+( , )? )+ ( . [0-9]+ )? 例子: 12,345 Tokenization算法 输入:一段文本 输出:词序列 算法:(略) 英文词形还原——Lemmatization 屈折型语言的词语变化形式: 屈折变化:即由于单词在句子中所起的语法作用的不同而发生的词的形态变化,而单词的词性基本不变的现象,如(take, took, takes)。识别这种变化是词法分析的最基本的任务。 派生变化:即一个单词从另外一个不同类单词或词干衍生过来,如morphological ??morphology,英语中派生变化主要通过加前缀或后缀的形式构成;在其他语言中,如德语和俄语中,同时还伴有音的变化。 复合变化:两个或更多个单词以一定的方式合成一个新的单词。这种变化形式比较灵活,如well-formed, 6-year-old等等。 Lemmatization的目的:将上述变化还原 英文词形还原——Lemmatization 规则变化的词形还原 ed 结尾的动词过去时,去掉ed; *ed →* (e.g., worked → work) *ed → *e (e.g., believed → believe) *ied → *y (e.g., studied → study) ing 结尾的现在分词, *ing → * (e.g., develo
文档评论(0)