词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点.PPT

下载文档

4
0
约小于1千字
约 7页
2018-06-14 发布于天津
举报
保障服务

词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点.PPT

词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点

面向中文分词的大规模语料库自然标注信息研究饶高琦修驰荀恩东北京语言大学信息科学学院研究背景标点符号阿拉伯数字拉丁字母强独立性字互联网标记 …… 自然标注信息：来自语料本身的标注信息人工标注信息：来自标注人员和专家区分：产生于语料采集前或后研究意义 1.语言知识形式化困难 2.协同工作质量控制困难 1.天然认知窗口宽度有限 2.认知窗口内的语言结构 1.数据稀疏要求更大训练集 2.人工标注成本昂贵认知空间规模-成本矛盾形式化矛盾为什么选择自然标注信息？不同于印欧族语言，汉语的形式化标记较少，也迫使我们更加进一步挖掘“隐性的”自然标注信息。研究内容-示例：强独立性符号 BIC Rank IWS BIC Rank IWS 的 1 0.033582 是 8 0.003267 ， 2 0.031799 “” 9 0.003058 。 3 0.013281 ！ 10 0.002924 、 4 0.008178 一 11 0.0024 了 5 0.006212 月 12 0.002008 和 6 0.006123 个 13 0.00191 在 7 0.005626 自然标注信息分割功能的普遍性描述训练集：93-03人民日报（550MB）；研究内容-示例：词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点符号阿拉

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点.PPT