中文词入门之标注法.pdf

  1. 1、本文档共25页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文词入门之标注法

中文词入门之标注法 52nlp 2014-1-4 在 自然语言处理领域的种创观念中,张俊林博士谈了种创模式一 种创是研究模式的颠覆,外一种创是用创,前者需要 NLP 领域出现爱 因坦式的革人物,者则是调用的心技术做一的用 在自然语言处理领域,多数创都属于者,譬如统计机器翻译,Brown 就是学 和借鉴了贾尼克将语音识别看通信的思想,将信源信道模型用 到 了机器翻译之中,而开辟了SMT 一全领域而 Nianwen Xue 将词性标注的 思想用到中文词领域,就了标注的中文词方法Chinese Word Segmentation as Character Tagging,得了巨大的曾通过 节选黄昌宁老师和赵海博士在 07 第 3 期中文信息学发表的中文 词十回顾绍了基于标注的中文词方法,因清楚类方法 的读者可通过述文章了解方法的一背,本文的点是实践 既然基于标注的中文词方法是将中文词当词性标注的来对待,那 就必标注对象和标注集了形象一点,个方法的命们就可推断 出它的标注是基本的汉包括一定数量的非汉符,而标注集则较灵 活,标注集都是依据汉在汉语词中的置计的,最简单的是 2-tag,譬 如将词首标记计 B,而将词的他置标记计 I,那中就可 标记中/B /I,海南岛则可标记海/B 南/I 岛/I,相地, 对于如好词的子 瓦西 的 船只 中 4% 驶 向 东 , 个 几乎 都 条 船 停靠 中 港口 基于 2-tag B,I的标注就是 瓦/B 西/I /I /I 的/B 船/B 只/I 中/B /B 4/B /I %/I 驶/B 向/B /B 东/I ,/B /B 个/I /B 几/B 乎/I 都/B /B /B /I 条/I 船/B 停/B 靠/I 中/B /I 港/B 口/I /B 除了 2-tag, 4-tag6-tag 等,都是依据在词中的置计的,本文 要目的是实践的角度绍基于标注的中文词方法计,达到抛砖引玉的 用,因们仅选用 2-tag B,I标注集行实验说明 了标注对象和标注集,那又如何行中文词呢?前面的子例,只 过没行中文词 瓦西的船只中4%驶向东,个几乎都条船停靠中港口 首先,你需要将标注对象独立出来,实就是给个符空格 瓦 西 的 船 只 中 4 % 驶 向 东 , 个 几 乎 都 条 船 停 靠 中 港 口 ,假你经训好了一个标注器,那就直接给行标注 瓦/B 西/I /B /I 的/B 船/I 只/B 中/B /B 4/I /I %/I 驶/I 向/B /I 东/B ,/B /B 个/I /I 几/B 乎/I 都/B /I /B /B 条/B 船/I 停/B 靠/I 中/B /I 港/I 口/I /B 最,需要你做得就是按照个标记的意思原中文词,并且除去标记 瓦西 的船 只 中 4%驶 向 东 ,个 几乎 都 条船 停靠 中港口 好了,就是标注方法的流程和词结果,很遗憾,个标注器的效果好, 过没关系,你可计更好的标注器,英文词性标注的被老外研究 的充 了,什 HMMTBL最大熵条件随机场策树等等等等,仅仅是方法, 连开源工都给你提供,完全可拿来 那又怎拿来计自的标注中文词器呢?知读者可记着 Citar, 记得的可温一HMM 在自然语言处理中的用一词性标注 6,Citar 是一个Hi北北优次 Ma严k欢天 M欢北优速 吧严i会严a造 PO分 吧a会会优严,需要标注好的语料来 训相语言的词性标注器,心的 HMM 标注框架是依赖于语言的,但是在 处理未登录词时 Citar 是要利用英 文词缀信息行标注的,因对于英文 词性标注来说效果相对较好,对于他语言,特别是中文种没词形的孤 立语来说,词性标注效果要一点折扣 过没关系,要谈的是思想, 而是工程的用,因暂时可忽略点影响,对于本文利用所计的 标注器来说,适用 可是哪的训语料呢?俗说得好自动手,丰衣足食虽然没哪 个提供的标注语料,但是们 SIGHAN Bakeoff 提供的 icwb2-data,你完全可利用自熟悉的编程语言写一个前处理程序,将转 们所需要的标注训语料形式一节 们将微洲研究院提供 的中文词语料例,利用 Citar 完一个基于 HMM trigram 的标注中文词 程序 虽然基于标注的中文词借鉴了词性标注的思想,但是在实践中,多数 paper 中的方法似乎局限于最大熵模型和条件随机场的用,所常常

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档