- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏文人名自动识别研究.doc
藏文人名自动识别研究
摘 要目前的藏文人名识别研究大多通过英语、汉语等语种的方法来研究藏文人名的识别,虽然有着较好的识别效果,但对人名的用词、构词特点及应用藏文文法规则对人名上下文信息特征的分析较浅。本文提出了通过建立藏文人名构成词的成分属性词典,动态生成人名库,利用传统文法中人名上下文信息特征的文法规则建立藏文人名上下文指示词库对人名自动识别的方法。
【关键词】藏文人名 自动识别 动态人名库 指示词
在进行藏文自然语言处理时,分词与标注是藏语语言信息处理的基础内容,也是藏语词法分析的核心。藏文人名识别作为藏文分词与标注系统的重要处理内容,目前的藏文分词与标注系统在处理含有藏文人名等未登录词时,其效果一般难以满足实际的需求。而藏文人名在未登录词中占有较大的比重,也是未登录词识别的主要难点。因此,藏文人名的自动识别对于藏文未登录词识别以及藏文自动分词与标注具有重要的意义。
1 藏文人名识别的研究现状及难点
1.1 藏文人名识别的研究现状
目前国内外针对人名的自动识别主要有三种:基于规则方法、统计方法以及规则与统计相结合的方法。藏文人名自动识别研究也以上述三种方法为主要研究方法,加上藏文人名的上下文信息特征来识别藏文人名为主。
1.2 藏文人名识别的难点
人名等命名实体识别发展至今在英文和中文领域已经取得了很大的成果,但是由于藏文人名自身的特殊性,使得藏文人名识别研究进展缓慢,藏文人名识别中的难点包括:
(1)音节长度不固定。按照藏族的传统命名方式藏文人名在起名时大多以3-4个音节结构较为普遍,但是由于在现实生活中对称呼的变化,藏文的音节长度最短的2个音节,最长可达26个音节。
(2)藏文人名本身并无明显的特征。藏文人名不同于英文和汉文人名,如英文人名在文本中出现时首字母为大写,汉文人名一般采用“姓氏+名字”的命名方式。藏文人名不存在大小写等形式上的特征,也没有严格意义上的姓氏。
(3)藏文人名内部构成已登录词,即藏文人名构成成分中含有常用名词。故藏文人名构成词在语义上都是兼类词。
2 藏文人名构成词的成分属性词典
藏文人名一般采用“随欲名(nd)、随立名(nj)、随欲名(nd)+随立名(nj)、随立名(nj)+随欲名(nd)、随欲名(nd)+形容词(a)、随立名(nj)或随欲名(nd)+昵称()、随立名(nj)或随欲名(nd)+表示女性的()”的方式命名,现用的藏文人名单名无姓,而名字通常由2个到4个音节组成,但也有些宗教人士的名字或有些名字前加家族名、地方名、古时的部落姓氏等藏文人名由4个以上的音节组成。本文中研究的藏文人名是藏区常用的,由2个到4个音节组成的人名。
2.1 建立藏文人名构成词的成分属性词典
根据藏文人名一般采用的命名方式,我们对其构成词的成分属性进行分析,建立藏文人名构成词的成分属性词典,把藏文人名的构成成分分为前缀成分和后缀成分,利用成分属性分析法分析构成词在人名中充当成分属性,如表1。
动态生成藏文人名的算法流程图如图1。
根据以上算法对藏文人名构成词的成分属性词典的构成词进行搭配,动态生成人名库,生成的人名2万多,对其进行人工修改后所含的常用人名1.6万多。
3 藏文人名指示词库的建立
在藏文文本中,有些词的出现通常标志着该词的上下文中有可能含有相应的藏文人名,这类词,我们称之为藏文人名的指示词。对于藏文人名自动识别研究来说指示词是个非常重要的上下文信息。藏文人名的指示词主要包括使格助词()、拉格助词()、属格助词()、名词()、连词()、饰集连词()、指示代词( )等。本文利用标记语料库对藏文人名上下文指示词的出现位置、频率进行统计,然后计算特定指示词在藏文人名的上下文中出现概率的方法来建立藏文人名指示词库。
利用标记语料库建立指示词库的过程如下:
(1)人名Wname,人名数Wi,左右指示词Wl, Wr,左右指示词的出现频度Wli, Wri,
(2)从标记语料库中顺序读取一词Word;
(3)若Word的标记是人名转(4),否则,转(2);
(4)Word放入Wname中,人名数Wi加1;
(5)若Word的左右词在Wl, Wr中存在则左右指示词的出现频度Wli, Wri加1;否则,转(6);
(6)Word左右词放入Wl, Wr中,并且左右指示词的出现频度Wli, Wri加1;
(7)若当前Word是标记语料库中的最后一个词则转(8),否则,转(2);
(8)算法结束。
根据最大概率法,计算特定指示词Wl, Wr藏文人名上下出现的概率P(Wl),P(Wr), 而P(Wl),P(Wr)可由指示词在一定数量的人名的上下出现
文档评论(0)