基于词性信息的汉语时间语词消歧算法.pdfVIP

基于词性信息的汉语时间语词消歧算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词性信息的汉语时间语词消歧算法.pdf

2005 年9 月 重庆大学学报(自然科学版) Sep. 2005 第28 卷第9 期 JournaI of Chongging University(NOturOI Science Edition ) VoI. 28 No. 9 文章编号:1000 - 582X(2005 )09 - 0053 - 04 基于词性信息的汉语时间语词消歧算法* 代 建 英,何 中市 (重庆大学 计算机学院,重庆 400030 ) 摘 要:切分歧义是影响汉语自动分词系统精度的一个重要因素. 时间语词包括指明事件发生确定 时间位置的时点时间词和指明动作或状态持续一段时间的时段时间词. 基于现代汉语语料库加工规范, 特定类型的时间语词存在切分歧义及考察时间语词的语用,提出了基于时间语词上下文词性信息的统 计语言模型和基于极大似然原理的消解这类歧义的算法,其开放测试正确率约为90% . 关键词:自然语言处理;切分歧义;时间语词;词性信息;统计语言模型 中图分类号:TP391 文献标识码:A 汉语自动分词是由计算机自动识别文本中的词边 如:三# m 个/ g ,一/ m 头/ g. 界的过程,是把没有词语分隔标记的句子,自动切分成 3 月/ t 10 日/ t 下午/ t 有一定语义的词串. 汉语自动分词在面向大规模真实 该规范强调要区分时间词与数量词组,例如: 文本进行分词时仍然存在很多困难,其中两个关键问 “78 年”指“1978 年”时应标注为“78 年/ t ”,当指数量 题是末登录词的识别和切分歧义的消除. 78/ m 年/ g ”. 同样,当 “七十八年”时应切分标注为“ 所谓切分歧义,是指文句中某个片断可能存在不 “8 日”指一个月当中的第8 天时为时间词,不予切分, 止一种的切分形式,通常包括交集型和组合型两个基 8 日/ t ”;若表示 8 天时,则要分开,标注为 标注为“ 本类型[1]. 大多数交集型歧义可根据字段内部提供的 [2 ] “8/ m 日/ g ” 信息消解 ,或以句法为主的局部上下文信息予以解 [3 ] [4 ] 根据该规范,时点应切分标注为“时间词”,由基 决 . 组合型歧义需要利用上下文信息处理 . 数词紧跟“年月日时分秒”等构成的时段应切分标注 1 时间语词 为“数词+ 量词” 由于基数词紧跟“年月日时分秒”等 时点时间词是指明事件发生的确定时间位置的一 构成的时点和时段在未切分文本中形式上的一致性, 类词,简称时点;时段时间词是指明动作或状态持续一 引起时间语词在自动分词过程中存在是分还是合的切 段时间的一类词,简称时段;通常把时点和时段通称为 分歧义 根据歧义的构成形式,可以把时间语词引起的 时间语词. 时点和时段是时间语词按表义功能的分类. 切分歧义归为组合型歧义 下面所说的时间语词都是 汉语里时点一般只能放在动作前面,时段既可放在动 由基数词紧跟“年月日时分秒”等构成的 切分后的时 作前也可放在动作后[5 ]

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档