词语抽取自然标注切分形成的子串集合在北大金标准中的召回率标点
面向中文分词的大规模语料库自然标注信息研究
饶高琦 修驰 荀恩东
北京语言大学
信息科学学院
研究背景
标点符号
阿拉伯数字
拉丁字母
强独立性字
互联网标记
……
自然标注信息:
来自语料本身的标注信息
人工标注信息:
来自标注人员和专家
区分:
产生于语料采集前或后
研究意义
1.语言知识
形式化困难
2.协同工作质量
控制困难
1.天然认知
窗口宽度有限
2.认知窗口内的
语言结构
1.数据稀疏
要求更大训练集
2.人工标注成本
昂贵
认知空间
规模-成本矛盾
形式化矛盾
为什么选择自然标注信息?
不同于印欧族语言,汉语的形式化
标记较少,也迫使我们更加进一步
挖掘“隐性的”自然标注信息。
研究内容-示例:强独立性符号
BIC
Rank
IWS
BIC
Rank
IWS
的
1
0.033582
是
8
0.003267
,
2
0.031799
“”
9
0.003058
。
3
0.013281
!
10
0.002924
、
4
0.008178
一
11
0.0024
了
5
0.006212
月
12
0.002008
和
6
0.006123
个
13
0.00191
在
7
0.005626
自然标注信息分割功能的普遍性描述
训练集:93-03人民日报(550MB);
研究内容-示例:词语抽取
自然标注切分形成的子串集合在北大金标准中的召回率
标点符号
阿拉
原创力文档

文档评论(0)