- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
哈工大语言技术中心
词法分析
概述
英文的词法分析
英文词识别
英文词形还原
中文的词法分析
形态分析
分词
中文未登录词识别
命名实体识别
术语、新词
概述
词:是自然语言中能够独立运用的最小单位,是语言信息处理的基本单位。
词法分析:词汇层的分析技术
词的识别:将句子转换成词序列。
形态分析:词的构成、形态变化、词形还原。
词性标注:标记句子中的词的词性。
英文的词法分析
英文的词法分析
屈折型语言:
词之间一般有边界标记
词的形态变化丰富。
词法分析
词的识别()
将句子转换成词序列。
例子:’ ’
词形还原()
分析词的形态结构:词的原型形态变化。
例子: ;
词性标注: ()
英文词的识别——
数字:
缩略(包含不同的情况):
字母-点号-字母-点号组成的序列,比如:. 、. 等;
字母开头,最后以点号结束,比如:. .、. ;
包含非字母字符,比如: $
带杠的词串,如:,,
带瞥号的词串,如:
带空格的词串,如: , “
其他:如网址( )、公式等
英文词的识别——
常见的特殊形式的英文词识别
.、. 、 、 . 、 . 等放入词典;
’ 、 ’
’
{, , , , , }’
{, , , , , }
’ ; ’
英文词的识别——
常见的特殊形式的英文词识别
{, , , , , , }’
{, , , , , , }
’ ;
’ ;
’
’ ?
’ ?
’ (如果 为单词原型)
(如果 为过去分词)
问题
例外较多,跟文本来源有关
歧义现象(如点号的句子边界歧义)
数字的识别
数词的识别一般可以用有限状态自动机来实现
识别分数的正则表达式:
[] []
例子:
识别百分数的正则表达式:
([ ]) ? [] ( . []* ) ?
例子: ,
识别十进制数字的正则表达式:
( []( , )? ) ( . [] )?
例子:
算法
输入:一段文本
输出:词序列
算法:(略)
英文词形还原——
屈折型语言的词语变化形式:
屈折变化:即由于单词在句子中所起的语法作用的不同而发生的词的形态变化,而单词的词性基本不变的现象,如(, , )。识别这种变化是词法分析的最基本的任务。
派生变化:即一个单词从另外一个不同类单词或词干衍生过来,如 ,英语中派生变化主要通过加前缀或后缀的形式构成;在其他语言中,如德语和俄语中,同时还伴有音的变化。
复合变化:两个或更多个单词以一定的方式合成一个新的单词。这种变化形式比较灵活,如, 等等。
的目的:将上述变化还原
英文词形还原——
规则变化的词形还原
结尾的动词过去时,去掉;
* →* (., → )
* → * (., → )
* → * (., → )
结尾的现在分词,
* → * (., → )
* → * (., → )
* →* (., →)
结尾的动词单数第三人称;
* → * (., → )
* → * (., → )
* → * (., → )
英文词形还原——
规则变化的词形还原
结尾的副词
* → * (., → )
结尾的形容词比较级、最高级
* →* (., → )
* → * (., → )
结尾的名词复数, 结尾的名词还原时做相应变化:
→ , → ,
→ , .
名词所有格’, ’
英文词形还原——
不规则变化的动词、名词、形容词、副词的词形还原
, ,
, ,
表示时间、百分数、货币、序数词的词形还原
→ ,标明时间名词;
→去掉 后,记录该数字为序数词;
$ → 去掉$,记录该数字为名词(美圆);
→ %作为一个数词
英文词形还原——
合成词的词形还原
分数词:基数词和序数词
。
合成名词:{名词、形容词、动词}+名词
, , 。
合成形容词:形容词+名词+、形容词+现在分词、副词+现在分词、名词+过去分词、名词+形容词等
, ,
, 等。
英文词形还原——
合成词的词形还原
合成动词:{名词、形容词、副词}+动词
带连字符“”的合成词
, , ,
,
, ,
英文词形还原——
词形还原的一般方法
查词典,如果词典中有该词,直接确定该词的原形;
查找不规则词形变化的词表,如果词典中有该词,直接确定该词的原形;
根据词形变化规则集,对单词进行还原处理,如果还原后在词典中找到该词,则得到该词的原形;
上述方法均失效,则作为未登录词处理。
英文词形还原的程度
词干层
如:
词根层
如:
分析程度取决于自然语言处理系统的深度:
不解决未登录词,分析到词干层
您可能关注的文档
最近下载
- 【高分刷题题库】价格鉴证师《价格鉴证案例分析》历年真题详解历年真题2019年价格鉴证师《价格鉴证案例分析》真题及详解案例分析题.pdf VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测物理含答案.doc VIP
- 《淘宝金融合作方案》课件.ppt VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测英语含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测数学含答案.doc VIP
- 天一大联考河南省2025—2026学年(上)高三阶段性检测生物含答案.doc VIP
- 小班数学活动串木珠.pptx VIP
- 天一大联考河南省2025-2026学年(上)高二年级秋季检测生物+答案.pdf VIP
- PLC应用技术 第3版 项目五 自动送料装车控制.ppt VIP
- DBJ50_T-037-2017 烧结页岩多孔砖和空心砖砌体结构技术标准.docx VIP
原创力文档


文档评论(0)