网站大量收购独家精品文档,联系QQ:2885784924

中文自动词性标注-北京大学中国语言学研究中心.pdf

中文自动词性标注-北京大学中国语言学研究中心.pdf

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文自动词性标注-北京大学中国语言学研究中心

第七章 词汇分析(二) —— 从词串到词性标记串 詹卫东 /doubtfire/ 提纲  1 词性标注与兼类词 2 隐马尔可夫模型(HMM) 3 Viterbi算法 4 基于转换的错误驱动的词性标注方法 5 小结 2 词类:为句法结构分析提供组合信息 (1)词(w )的组合方向: w在参与序列组合时朝哪个方向组合 ; (2)词(w )的组合对象: w要求跟几个成分组合; w要求跟什么类型的语言成分组合。 ? ? ? w ? 3 词类:为句法结构分析提供组合信息 b: 区别词 d:副词 u:助词 v :动词 a: 形容词 n:名词 词类(分布)信息 = 组合方向 + 对组合对象的约束 4 1 词性标注(pos tagging)  语法体系 —— 词性标记集的确定  一词多类现象 • Time flies like an arrow. Time/n-v flies/v-n like/p-v an/Det arrow/n • 把这篇报道编辑一下 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一/m-c 下/f-q-v 5 词的兼类现象 兼类数 兼类词数 百分比 例词及词性标记 5 3 0.01% 和 c-n-p-q-v 4 20 0.04% 光 a-d-n-v 3 126 0.23% 画 n-q-v 2 1475 2.67% 锁 n-v 合计 1624 2.94% 总词数:55191 数据来源:北大计算语言所《现代汉语语法信息词典》1997年版 6 词的兼类现象(续) 兼类 词数 百分比 例词 n-v 613 42% 爱好,把握,报道 a-n 74 5% 本分,标准,典型 a-v 217 15% 安慰,保守,抽象 b-d 103 7% 长期,成批,初步 n-q 64 4% 笔,刀,口 a-d 30 2% 大,老,真 合计 1101 75% 兼两类词数:1475 7 词的兼类现象(续)

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档