- 5
- 0
- 约1.31千字
- 约 2页
- 2015-07-20 发布于安徽
- 举报
基于层叠隐马尔可夫模型的中文分词系统基本流程为:
汉字输入 这是一个汉字序列,采用N最短路径寻优法找到N种最优的粗切分,并将结果保存到一个公共的数据结构里。
根据词库,对于未查询到的词进行未登录词的生成,并将结果保存到词库
复杂的未登录词同样处理
细切分(Lexicalized HMM)
词性标记
输出;
1粗切分阶段
首先进行原子切分,也就是将单个汉字切分。
根据词库字典,找出所有原子之间的组词方案。(这些不同的组词方案要存放在一个数据结构里面,这种数据结构要有深刻认识!)
N-最短路径中文词语粗分。
1),2)为预处理阶段……
问题是,如何根据词典,找出字典中可能的词,确定有向无环图中的边,并给这个边一个权值?
我们引入词频这个概念,假设一个词wi , 词频信息记为P(wi) ,确定 p最大的N种粗分结果集!
W=w1 w2……wm是字串S=c1 c2……cn的一种切分结果。wi 是一个词,P(wi)表示wi的出现的概率。
在大规模的训练语库的基础上,根据大数定理,我们就可以对P(wi)进行极大似然估计
P(wi) ≈ki / (其中ki为wi在训练样本中出现的次数)
字串 W=w1 w2……wm 中每个词出现的次数相加的和 为
在粗切分阶段,我们认为上下文之间是无关联的,也就是词与词之间不用去思考语义对它们出现概率的影响
联合概率P(
您可能关注的文档
最近下载
- 2025年武威市招聘专业化管理的村党组织书记考试笔试试卷【附答案】.docx VIP
- 2025年武威市招聘专业化管理的村党组织书记笔试真题(含答案).docx VIP
- 2024年武威市招聘专业化管理的村党组织书记真题.docx VIP
- 2024年张掖市专业化管理的村党组织书记招聘真题.docx VIP
- 精品解析:天津市河西区2024-2025学年八年级下学期期末数学试卷(原卷版).docx VIP
- 地面光伏电气工程施工工艺标准及施工要点图示.pdf
- 2025年江苏省建筑施工企业安管人员考试(项目负责人·B类)历年参考题库含答案详解.docx VIP
- 地面光伏土建工程施工工艺标准及施工要点图示.pdf
- 2026年江苏省建筑施工企业安管人员考试(项目负责人·B类)历年参考题库含答案详解.docx VIP
- 全自动硬质空心胶囊生线环评报告.pdf VIP
原创力文档

文档评论(0)