中文分词和词性标注的在线重排序方法.pdfVIP

中文分词和词性标注的在线重排序方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词和词性标注的在线重排序方法 孟凡东 谢军 刘群 中国科学院 计算技术研究所 智能信息处理重点实验室,北京 100190 {mengfandong,xiejun,liuqun}@ict.ac.cn 特征,增大解码空间,结果比单独分词、词性 摘要 标注的基线系统效果都好。 当前主流的中文分词与词性标注方法将 基于字标注的分词方法,通常使用的是局 分词和词性标注问题看成是序列标注问 部特征。局部特征是在一定长度的窗口范围内 题,通常利用局部特征训练判别式模 抽取字的上下文信息,距离该字较远的信息难 型。该方法取得了很好的效果,但是与 以得到充分的利用。虽然只利用局部特征已经 词、词性相关的全局特征并没有被充分 可以取得很好的结果,但是引入全局特征可以 的利用。为了更好的处理分词和词性标 进一步增强处理歧义的能力,对于分词与词性 注的歧义,传统的重排序方法在第一次 标注来说是有帮助的。 解码的 n-best 候选结果集上,利用全局 通常使用全局特征的方法是重排序方法。 特征进行二次解码,重新选择一个更好 即第一次利用局部特征训练分类器进行解码, 的结果。该方法往往需要保留较大的候 保留 n-best 候选结果表;然后利用重排序技术 选结果集,并需要两次解码。本文提出 进行第二次解码,在这 n-best 候选结果列表里 了一种在线重排序方法,将重排序过程 重新选择出最好的结果。这种方法在一定程度 融合到一次解码的过程中,充分利用局 上提高了分词、词性标注的效果,但是往往需 部和全局特征,在一次解码时利用更多 要在第一次解码时保留较大的 n-best 列表,才 信息以减少搜索错误,选择一个更好的 能找到真正的最优解。 结果。本文在中文宾州树库(CTB5.0)和 本文提出中文分词与词性标注的在线重排 微软亚洲研究院语料(MSR)上做实验,结 序方法,将分词解码过程与重排序过程融合在 果表明,本方法相对于只用局部特征训练 一个框架下,在充分利用传统的局部特征的基 的基线系统以及传统的重排序方法都有 础上,补充利用全局特征。利用堆栈搜索算法 明显的效果提升。 解码。我们为每个字保留一个堆栈,存储从第 一个字到当前字为止的最好的候选结果集,以 供在线重排序使用。相对于传统的重排序方 1 引言 法,本方法旨在一次解码过程中利用更多的信 息尽量避免错误,以便搜索到更好的结果。本 Xue and Shen (2003) 首先提出将分词问题 方法只需要为每个字保留一个很小的堆栈,效 转化为基于字的序列标注问题,当前主流的中

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档