网站大量收购独家精品文档,联系QQ:2885784924

基于边界点词性特征统计的韵律短语切分Ξ-中文信息学报.PDFVIP

基于边界点词性特征统计的韵律短语切分Ξ-中文信息学报.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于边界点词性特征统计的韵律短语切分Ξ-中文信息学报.PDF

中 文  信  息  学  报 第 15 卷 第 5 期   JOURNAL OF CHINESE INFORMATION PROCESSING Vol . 15 No. 5 基于边界点词性特征统计的韵律短语切分 牛正雨  柴佩琪 ( 同济大学计算机科学与工程系  上海  200092) 摘要 : 由于基于规则方法的文本处理系统在系统建立时需要总结大量的规则 ,而且很难保 证它在处理大规模真实文本时的强壮性 ,因此本文在使用统计方法进行韵律短语切分方面做 了一些有益的探索 。先对文本进行自动分词和 自动词性标注 ,然后利用从已经经过人工标注 的语料库中得到的韵律短语切分点的边界模式以及概率信息 ,对文本中的韵律短语切分点进 行自动预测 ,最后利用规则进行适当的纠错 。通过对一千句的真实文本进行封闭和开放测试 , 词性标注的正确率在 95 %左右 ,韵律短语切分的召回率在 60 %左右 ,正确率达到了 80 % 。 关键词 :韵律短语切分 ; 自动词性标注 ;语料库 ;统计方法 中图分类号 : TP39 1 A Statistical Approach Based on Boundary POS Feature to Prosodic Phrasing N IU Zhengyu  CHA I Peiqi (Dep art ment of Comp uter Science and Engineering , Tongj i U niver sity  Shanghai  200092) Abstract :It is often difficult to const ruct a rulebased p ar ser and adapt it to largescale real text . So we t ried a st atistical app roach to p ro sodic p hrasing . At fir st t he text was segmented into Chinese wor ds ,t hen wor d sequences are t agged automatically by PO S t agger . The boundary p attern and boundary dist ribution p robabilities are used in t he algorit hm to p redict p hrase breaks. The bound ary dist ribution p robabilities are derived from handannot ated corp us. The error s caused by st atis tical met hod are corrected by rules. Through clo se testing and open testing on about 1000 sen tences ,t he correct PO S t agging rate is about 95 % ,t he recalling rate of p ro sodic p hrasing is around 60 % ,and t he correct rate of p ro sodic p hrasing is about 80 %. Key words :p ro sodic p hrasing ;p artofspeech t agging ;corp us ;st atistical app roach 收稿 日期 :200 1 - 0 1 - 15 ;修改稿收到日期 :200 1 - 04 - 17 作者牛正雨 ,男 ,1976 年生 ,硕士 ,主要研究领域为语音合成. 柴佩琪 ,女

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档