中文分词和词性标注的在线重排序方法.pdfVIP

下载本文档

9
0
约2.87万字
约 7页
2017-09-15 发布于重庆
举报
版权申诉

中文分词和词性标注的在线重排序方法.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

中文分词和词性标注的在线重排序方法孟凡东谢军刘群中国科学院计算技术研究所智能信息处理重点实验室，北京 100190 {mengfandong,xiejun,liuqun}@ict.ac.cn 特征，增大解码空间，结果比单独分词、词性摘要标注的基线系统效果都好。当前主流的中文分词与词性标注方法将基于字标注的分词方法，通常使用的是局分词和词性标注问题看成是序列标注问部特征。局部特征是在一定长度的窗口范围内题，通常利用局部特征训练判别式模抽取字的上下文信息，距离该字较远的信息难型。该方法取得了很好的效果，但是与以得到充分的利用。虽然只利用局部特征已经词、词性相关的全局特征并没有被充分可以取得很好的结果，但是引入全局特征可以的利用。为了更好的处理分词和词性标进一步增强处理歧义的能力，对于分词与词性注的歧义，传统的重排序方法在第一次标注来说是有帮助的。解码的 n-best 候选结果集上，利用全局通常使用全局特征的方法是重排序方法。特征进行二次解码，重新选择一个更好即第一次利用局部特征训练分类器进行解码，的结果。该方法往往需要保留较大的候保留 n-best 候选结果表；然后利用重排序技术选结果集，并需要两次解码。本文提出进行第二次解码，在这 n-best 候选结果列表里了一种在线重排序方法，将重排序过程重新选择出最好的结果。这种方法在一定程度融合到一次解码的过程中，充分利用局上提高了分词、词性标注的效果，但是往往需部和全局特征，在一次解码时利用更多要在第一次解码时保留较大的 n-best 列表，才信息以减少搜索错误，选择一个更好的能找到真正的最优解。结果。本文在中文宾州树库(CTB5.0)和本文提出中文分词与词性标注的在线重排微软亚洲研究院语料(MSR)上做实验，结序方法，将分词解码过程与重排序过程融合在果表明,本方法相对于只用局部特征训练一个框架下，在充分利用传统的局部特征的基的基线系统以及传统的重排序方法都有础上，补充利用全局特征。利用堆栈搜索算法明显的效果提升。解码。我们为每个字保留一个堆栈，存储从第一个字到当前字为止的最好的候选结果集，以供在线重排序使用。相对于传统的重排序方 1 引言法，本方法旨在一次解码过程中利用更多的信息尽量避免错误，以便搜索到更好的结果。本 Xue and Shen (2003) 首先提出将分词问题方法只需要为每个字保留一个很小的堆栈，效转化为基于字的序列标注问题，当前主流的中