网站大量收购独家精品文档,联系QQ:2885784924

一种高精度的单词自动切分模型.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种高精度的单词自动切分模型+ 邰晓英 5 21l 宁被大学计算机系,宁波市,31 小田裕树北研二 (日本德岛大学,日本) 摘要本文提出粟用字符N元语法模型(charmccer—basedtl-gram 分单词,该方法尤其适用于汉语和日语等单词间无空白相隔的语言。在使用ADD(ATRDialogueDatabase, 日本ATR会话数据库)语科库的实验中。此方法的有效性已得到证实。其中.封闭语料的测试得到97.68% 96.79%的精确率。 关键词N元语法模型单词切分语料库束登录词 在英语等词惭有空白相隔的语言中. 般来说,不存在分词问题。然而。像汉语和日 语等语言,因单词间无空白相隔,所以需对语句做单词切分及词类标注处理。传统的单 词切分利词类标注技术一股是借助词典采用基于规则的启发式方法。由于语言词汇是一 个开放的集台,无论多大的词典都不可能网罗所有的词,所以未登录词成为自动分词研究 的重要问题。 在对英语语料库的自动词类标注器设计中基于概率统计的方法占主导地位a因英语 model)标注词类。对英语来说, 词间有空自相隔,所以采用基于单词的模型(word—based 即使存在未登录词.对单词切分的结果也不会有什么影响。然而对汉语和日语来说则不 然.未登录词的存在对自动切分的结果会造成严重影响”l。因此本文提出适于汉语、日 语等词间无空白相隔的语言的自动切分方法。该方法采用基于字符N元语法模型(cha- racter.based model)和Viterbi算法切分单词,并具有如下特点: ·一般汉语和日语使用的字符约3000(目语,假名和汉字字符)~7000(汉语, 汉字字符),与单词相比数量少得多。因而,在字符模型中,概率模型的参数相对较少。 便于估计可靠的概:菩值。 ·单涮平均长度约2~3个汉字,因而可以认为一个汉字具有与单词接近的信息量。 ·在字符模型中,不用词典。这样一来未登录词的概念也就自然消失。 ·因构成~语句的字符数是一定的,所以为了比较若干个单词切分的结果,没有必 要考虑切分结果概率的规范化问题。 本文中的概率模型采用了字符三元语法模型,即N=3时的N元语法模型。字符的N 元模型是用州.1)阶马尔可夫过程来表示某个字符发生的一个近似模型,即可以认为第N 个字符的发生仅与直接在它之前出现的N.1个字符有关。对于由n个字符构成的字符序 列cI,·一,“有: P(“fc/,‘。jc川)≈P(岛I“N¨….o“) (1) 238 在使用N元模型的条件下,字符序列c,,…。岛的生成概率可以由以卜公式计算出 P(ct,一,c c·…,c CJ,一+-”,c,+t) n)=奠.P(c—I r一·)*!;P‘c,l (2) (1)由概率论基础成立;(2)由(1)得出。 根据上述的字符N元语法模型,可构造单词切分模型。我们削给出单词边界位置的 语言数据,建立字符N元语法模型,据此进行单词切分。为了评测此单词切分模型.我 们采用ADD(ATRDialogue 率(recall)和精确率(precision)描述: recall=M/Std (3) precision2M/Sys (4) 切分出来的单词匹配成功的单词数。表l给出采用本文提出的单词切分模式在封闭数据 和开放数据的测试中用的语句数,单词数和字符数以及各自的切全率和精确率。仅从开 放数据测试得到的精度可知本方法的有效性。 表l单词切分模式的测

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档