第 卷 第 期 中文信息学报
年 月
文章编号
探索用户自然输入标记及其在构建分词语料库中的作用
张大奎 尹德春 汤世平 毛 煜 樊孝忠
北京理工大学 计算机学院 北京
中国人民公安大学 信息技术与网络安全学院 北京
摘 要 当分词算法优化到接近极限时 分词器的性能指标就较多地取决于训练语料的覆盖度和完备程度 因此
如何快速 省力 自动化地构建具有较完备的分词语料库是一个亟待解决的问题 该文对用户输入过程中留下的
大量可用且珍贵的自然分词信息进行了探索和研究 为自动构建分词语料库提供了一种新的观点 前人的研究
中 对用户在输入过程中留下的自然分词标记信息并没有关注 而该文通过实验验证了这些分词标记信息确实可
以用于构建分词语料库 并且具有相当好的效果 其中经过甄别优秀用户在输入时留下的分词标记十分接近标准
的分词结果 该文使用分类模型结合投票机制的方法找到三个此类优秀用户 获取了他们带有输入标记的文本
快速构建了分词训练语料库 极大地提升了分词器的精度 更重要的是 揭示并验证了自然输入分词标记信息的有
效作用
关键词 自然输入标记 中文分词 用户输入 分类模型 投票机制
中图分类号 文献标识码
您可能关注的文档
最近下载
- DBJT_15-111-2016_预拌砂浆_生产与应用技术管理规程-全国各省建筑标准.pdf VIP
- DBJT_15-106-2015_顶管技术规程-全国各省建筑标准.pdf VIP
- 专题四 技术图样 考向一 错标、多标、漏标 学案(含解析)2025届高中通用技术.DOCX VIP
- (一模)南通市2026届高三学业质量监测语文试卷(含标准答案).doc VIP
- 专题四 技术图样 考向一 错标、多标、漏标 课件 2025届高中通用技术.pptx VIP
- 专题四 技术图样 考向四 三视图错误 学案(含解析)2025届高中通用技术.DOCX VIP
- 《七年级上册地理》重点精选ppt.pdf VIP
- 科技论文写作和文献检索公开课获奖课件.pptx VIP
- 专题四 技术图样 考向三 三视图选择 学案(含解析)2025届高中通用技术.DOCX VIP
- 专题四 技术图样 考向二 图样错误 学案(含解析)2025届高中通用技术.DOCX VIP
原创力文档

文档评论(0)