计算语言学讲义_词法分析(四).pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算语言学讲义_词法分析(四).pdf

计算语言学 第 6 讲 词法分析(四) 刘群 中国科学院计算技术研究所 liuqun@ 中国科学院研究生院2011 年春季课程讲义 内容提要 计算语言学讲义 (06) 词法分析 ( 四) 2 基于字标注的中文词法分析 • Nianwen Xue and Libin Shen. 2003. Chinese word segmentation as LMR tagging . In Proceedings of the Second SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL’03, pages 176–179, Sapporo, Japan. 计算语言学讲义 (06) 词法分析 ( 四) 3 空挡标注 • 最简单的分词方案,可以理解为: 对句子中每两个汉字之间的空挡判断是 否进行切分 费 0 孝 0 通 1 向 1 人 0 大 1 报 0 告 费孝通 向 人大 报告 计算语言学讲义 (06) 词法分析 ( 四) 4 字标注 • 对每一个汉字进行标注 {B,M,E,S} : – B :词首字 – M :词中字 – E :词尾字 – S :单字词 费/B 孝 /M 通 /E 向/S 人 /B 大 /E 报 /B 告 /E 费孝通 向 人大 报告 计算语言学讲义 (06) 词法分析 ( 四) 5 空挡标注与字标注的转换 • 上述两种标注是可以转换的: – 字标注可以通过该字左右的空挡标注得到: • B10 • M00 • E01 • S11 计算语言学讲义 (06) 词法分析 ( 四) 6 更复杂的字标注 • Hai Zhao, Chang-Ning Huang, and Mu Li, An Improved Chinese Word Segmentation System with Conditional Random Field, Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing (SIGHAN- 5), pp.162-165, Sydney, Australia, July 22-23, 2006 • 采用基于字的六标注集合: B 、 B1 、 B2 、 M 、 E 、 S – 单字词: S – 两字词: BE – 三字词: BB E 1 – 四字词: BB B E 1 2 – 五字词: BB B ME 1 2 – 六字词: BB B MME 1 2 • 问题:六字标注集如何表示为空挡标注? 计算语言学讲义 (06) 词法分析 ( 四)

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档