- 2
- 0
- 约5.28千字
- 约 10页
- 2016-02-02 发布于江苏
- 举报
一种基于统计汉语切词方法.doc
一种基于统计的汉语切词方法
刘海峰 王元元(解放军理工大学理 江苏南京 210007)
【摘要】汉语分词是中文信息处理系统的基础。本文的主要目的是:提出一种概率模式与统计手段相结合的方法进行汉语切词。首先采用一种基于概率的算法对汉语文本进行切分,然后在此基础上借助样本方差这一统计手段对切分结果进行检验、修正;利用两种模型相结合的方式,提高切分的准确率。
【关键词】自动分词 搭配 最大概率 样本均值 样本方差
1 汉语切词的意义
对于利用计算机进行汉语自动翻译的工作者来说,汉语文本的切词是必须面对的问题。一般说来,如果我们能在两种不同的语言中找到对应的模式,那么翻译将是非常理想的。但是书面汉语不像英语、法语等印欧语言那样,词与词之间用空格分开,一个汉语的句子却是由前后连续的字符串组成,词与词之间并没有明显的分界标志。这样,计算机面对的是汉语整句输入,要使计算机像人一样对句子进行处理,就必需把这一串字符切分成合乎人的语感的一串词。而这一步骤几乎又是我们进行其它所有与自然语言处理相关的应用—诸如中文信息处理、人机对话等的前提。
其次,语言中的词往往具有多种词性和多种词义,这虽然是各种语言的一种普遍现象,但是在汉语中这种现象比起西方语言来说要严重得多。汉语中各种搭配、组合十分复杂,常常会产生歧义。比如句子:“彩色铅笔盒子”可以理解为(彩色)(铅笔盒子),也可以理解为(彩色铅笔)(盒子);“
您可能关注的文档
最近下载
- HB6167.2-2014 民用飞机机载设备环境条件和试验方法 第2部分:温度和高度试验.pdf VIP
- 2023-2024学年苏科版七年级数学下册第7章《平面图形的认识(二)》单元综合测试卷(含答案解析).docx VIP
- 施工现场危险源识别及风险防控方案.docx VIP
- 园林绿化工程招投标书完整版..docx VIP
- 2025年北京信息职业技术学院单招笔试职业能力测验试题库含答案解析.docx VIP
- 第三章本—量—利分析.pptx VIP
- 《本量利分析》课件.pptx VIP
- 2026年1月10日海南省税务局遴选笔试真题及解析.docx VIP
- 机要保密员岗位工作总结7篇.docx VIP
- 图书供应项目售后服务方案.docx VIP
原创力文档

文档评论(0)