探索用户自然输入标记及其在构建分词语料库中的作用-中文信息学报.PDF

探索用户自然输入标记及其在构建分词语料库中的作用-中文信息学报.PDF

第 卷 第 期 中文信息学报 年 月 文章编号 探索用户自然输入标记及其在构建分词语料库中的作用 张大奎 尹德春 汤世平 毛 煜 樊孝忠 北京理工大学 计算机学院 北京 中国人民公安大学 信息技术与网络安全学院 北京 摘 要 当分词算法优化到接近极限时 分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度 因此 如何快速 省力 自动化地构建具有较完备的分词语料库是一个亟待解决的问题 该文对用户输入过程中留下的 大量可用且珍贵的自然分词信息进行了探索和研究 为自动构建分词语料库提供了一种新的观点 前人的研究 中 对用户在输入过程中留下的自然分词标记信息并没有关注 而该文通过实验验证了这些分词标记信息确实可 以用于构建分词语料库 并且具有相当好的效果 其中经过甄别优秀用户在输入时留下的分词标记十分接近标准 的分词结果 该文使用分类模型结合投票机制的方法找到三个此类优秀用户 获取了他们带有输入标记的文本 快速构建了分词训练语料库 极大地提升了分词器的精度 更重要的是 揭示并验证了自然输入分词标记信息的有 效作用 关键词 自然输入标记 中文分词 用户输入 分类模型 投票机制 中图分类号 文献标识码

文档评论(0)

1亿VIP精品文档

相关文档