词汇分析找出字符串中的词.ppt

第七章 词汇分析(一) —— 找出字符串中的“词” 詹卫东 /doubtfire/ 提纲 1 从字符串到词串 从字符串到词串(续) 张店区大学生不看重大城市的户口本 张店区 大学生 不 看 重大 城市 的 户口本 张店区 大学生 不 看重 大 城市 的 户口本 你认为学生会听老师的吗 你 认为 学生会 听 老师 的 吗 你 认为 学生 会 听 老师 的 吗 我家门前的小河很难过 …… 从字符串到词串(续) 2 英语的词汇处理 Tokenization:把字符串变为词串 I’m a student - I ’m a student Lemmatization:对词进行内部结构和形式分析 took - take + ed (past tense) 2.1 Tokenization 1)数字:123,456.781 90.7% 3/8 11/20/2000 2)缩略(包含不同的情况): a. 字母-点号-字母-点号组成的序列,比如:U.S. i.e. 等等; b. 字母开头,最后以点号结束,比如:A. b. Mr. eds. prof. ; 3)包含非字母字符,比如:ATT Micro$oft 4)

文档评论(0)

1亿VIP精品文档

相关文档