隐马尔科夫模型
中文分词工程报告
研究背景
随着互联网技术的发展,计算机在人们的生产生活当中起着不可或缺的作用,而计算机对中文的分词,理解,以及翻译也随着社会生产力的发展,需求量也越来越大,而中文词汇多,语义繁杂,语法不清晰的问题也随之暴露出来,所以一个好的中文分词模型对建立中文分词系统起着至关重要的作用。
模型方法
本工程主要采用了隐马尔科夫模型。
隐马尔可夫模型可以表示为一个五元组( S, O, A, B,)
S 是一组状态的集合。
S = {‘S’, ‘I’, ‘B’, ‘E’}
O是一组输出符号的集合。
A 是状态转移矩阵。
符号B 输出概是率分布
B = {P( vk | j )} P( vk | j )表示在状态j时输出符号vk的概率
π是初始状态概率分布π={?i }
πi = P( q1 = i ) 表示初始选择某个状态的概率。
首先,在A矩阵中求出各个状态之间转移的概率,再算出B中在状态J时输出符号vk的概率,然后算出各种情况下的概率情况,最后所得的最大概率的序列就是中文分词的序列
例如:
模型的参数已知,评价某个分词结果
我 爱 你 程 序 员
S S S B I E
Value=?*P(S-S)*P(S-S)*P(S-B)*P(B-I)*P(I-E)*
P(我|S)* P(爱|S)* P(你|S)* P(程|B)* P(序|I)* P(员|S)
求得最佳的转换序列,再进行相应的匹配,就能得到所求的中文分词了
系统设计
首先,我们需要统计很多词语来用程序训练。选取人民日报上的语料库的格式如下:
我们在一个单独的程序里一行一行的读入这些语料,并依据JAVA中String包的split()函数对这一行的许多元组按照”\\s+”来拆分成一个个小元组,例如:
迈向/vt,充满/vt.然后对单个的小元组按照”/”来拆分,并统计重复的词的个数。最终在新的文件里形成:词组 词性 词出现的个数,这样的形式。
所用到的源代码如下:
VectorString all = new VectorString();
VectorString vocabu = new VectorString();
VectorString grammar= new VectorString();
VectorInteger num= new VectorInteger();
File s = new File(D:\\we.txt);
File w = new File(D:\\result.txt);
FileWriter fw = new FileWriter(w);
FileReader fr = null;
fr = new FileReader(s);
@SuppressWarnings(resource)
BufferedReader fis=new BufferedReader(fr);
String str = null;
int i,j;
while((str=fis.readLine())!=null)
{
i=0;
j=1;
String[] sp= str.split(\\s+);
for(i=0;isp.length;i++)
{
all.add(i,sp[i]);
}
if(!all.isEmpty())
{
for(j=0;jall.size();j++)
{
String cizu = all.elementAt(j);
String[] sic = cizu.split(/);
// System.out.println(sic[0]+ );
if(sic[0].length()15sic[0].length()0sic.length==2)
{
int weizhi=vocabu.indexOf(sic[0]);
// System.out.println(sic[0]);
if(weizhi==-1)
{
vocabu.add(sic[0]);
grammar.add(sic[1]);
num.add(1);
}
else{
int count = num.remove(weizhi);
count=count+1;
n
您可能关注的文档
最近下载
- (高清版)DB31∕T 1487-2024 国际医疗服务规范.docx VIP
- 精益管理措施在医院手术室医用耗材管理中的应用.pdf VIP
- 2026及未来5年中国商务男装市场运行态势及战略咨询报告.docx
- 泸州市高2023级(2026届)高三(一诊)数学试题(含标准答案).pdf
- 新城地产商开目标成本主要科目价格测算标准-定稿.pptx VIP
- 12月1日艾滋病宣传日活动方案模板(集锦5篇).docx VIP
- 2024年湖南铁道职业技术学院单招计算机测试模拟题库必考题.docx VIP
- 遗产分割起诉状.docx VIP
- 2021年重庆市中考物理真题(a卷).pdf VIP
- 2025年度民主生活会对照检查材料8篇五个带头合集.docx VIP
原创力文档

文档评论(0)