- 7
- 0
- 约4.43千字
- 约 9页
- 2017-07-01 发布于福建
- 举报
短中文分词算法优化探究
短中文分词算法优化探究 摘要摘要:对中文分词进行研究是自然语言处理的重要步骤,结合字典对短中文进行正逆向分词,在此基础上得到多组分词结果,利用基于统计的方法和基于规则的方法进一步优化算法,根据用户使用频度和网络搜索热度以及词语间的固定搭配规则对多组分词进行排序,并通过实例验证发现该方法具有较好分词效果
关键词关键词:中文分词;分词算法;使用频度;搜索热度
DOIDOI:10.11907/rjdk.171062
中图分类号:TP312
文献标识码:A文章编号文章编号2017)005004202
0引言
自然语言处理中,词是最小的能独立活动的有意义的语言成分。汉语不同于英语,英语有天然的分割符,而汉语需要采用一定的技术或方法将汉语短语、句子分割成最为基本的词。对于搜索引擎、微博情感分析等具体应用,绝大多数的用户输入的中文语句长度短且无自然分割符(标点符号)。本文重点研究短中文分词算法及其优化方法,提出了结合基于词典的分词方法,并利用基于统计的方法和基于规则的方法进一步优化算法,并通过实例验证发现该方法对短中文具有较好的分词效果
1分?~算法优化思路
短中文具有字数少、无自然分割的特点[1]。针对短中文可以根据一定的分词方法(例如逆向或者正向的分词方法)将短中文分成几组词,即要有不同的分词词组,并在此分词算法基础上,根据用户的搜索习惯和网络上词的热度,结合固定搭配和语法匹配规则,给出一定概率指标的排名。利用排名来确定分词的词组,从而实现分词的优化,使得分词结果更加接近用户需求[2-4]
该优化方法有3个主要步骤,分别是基于字典的分词方法、基于频度的概率指标计算方法和基于规则的概率指标计算方法
当用户输入关键词字符串时,会根据分词方法将字符串分成几个组词,这几个组词每一组都有一个分词概率指标P,代表该组分词的匹配概率,也就是该组分词是正确分词的概率。而这个指标P由以下4个因素决定
首先,对于一个用户而言,其具有固定的搜索习惯,分析其搜索习惯的信息有助于分析该用户的习惯,从而在用户给定的搜索关键词中找到用户所需要信息。将这一因素对P的比重记为P1
其次,一个词在互联网的热度也表明这个词在大众生活中的一种倾向性。例如,某部电影近期很受关注,那么可以预见在近一段时间内针对它的搜索量会增多。对于单个用户而言,它是大众中的一部分,如果在分词分组中出现一个热度很高的词,那么这个分组很有可能就是需要的。因此,将这个因素对P的比重为P2
除了频度因素对P的影响外,词的搭配也会对词组产出影响。词与词之间的搭配是固定的,如果分词词组存在这样的搭配,也会增加是该组分词的概率,可以把该因素记为O。词与词之间除了固定搭配,还有语法规则上的搭配,每个词都具有词性如名词、动词、形容词等,这些词与词的组合也会对分词产生影响,该因素记为指标附加值Va
综上所述,对于某一搜索词的分词概率指标P可以表示为:
P=αP1+βP2+χO+C+Va(1)
其中,C为其它因素,α,β,χ为公式中的系数因子。对于不同组的分词来说,C值是相同的
2基于短中文特点的分词方法
在本步骤中,需要多种分组方法,所以使用逆向与正向相结合的方式[5]。假设字典已经被建立,要从字符串中取出词,首先采用正向方法,设该字符串有L个字符,第一次,取全部的L个字符,然后在字典中查找匹配,如果存在,则该分组为一个有效的分组。如果不存在,那么去掉最后一个字符,即取前1个到第L-1个字符,然后在字典中继续匹配,如果存在,该词即为所需,并将剩下的一个字作为另一个词。同样,如果不匹配,为了加快匹配的进度,去掉上一步最后的两个字符,即取第1到第(L-1)-2个字符,如果匹配,则该词是需要的,并将剩下的词按此方法继续匹配,如果仍然不匹配,就按((L-1)-2)-3这样来继续减少字符串长度来进行字典匹配,直到把该字符串的第一个词从左到右取出来。至此,取到了从左到右的第一个词。需要再从右向左取第一个词,按照同样的方法,只不过这次是从右到左,找到第一个从右到左的词。结合这两个词,如果这两个词的长度加起来等于字符串长度,那么就是一个分组,如果加起来长度小于字符串长度,那么将这两个词之间的字符串取出来,按上述步骤,再次进行分词,直到将词取出完
按照正逆序结合分词算法能够得到多个不同的分词组合,优化算法主要通过基于频度和基于规则对分词组合结果进行排序
3基于频度的分词结果排序算法
频度排序算法有两种:用户使用频度算法和网络热词频度算法
3.1使用频度
一个用户有着自己固定的习惯、爱好和知识面,所以当一个用户使用搜索功能时,其搜索的内容是有规律的。例如,一个计算机专业的人员,其搜索的内容很大概率与
您可能关注的文档
最近下载
- 2026年牛津译林版中考英语新课标1500个单词背诵清单.pdf
- 疥疮诊疗中国专家共识(2026版)解读PPT课件.pptx VIP
- 《烟雾病和烟雾综合征诊断与治疗中国专家共识(2024)》解读PPT课件.pptx VIP
- 2024年改良型新药行业研究报告及未来五至十年预测分析报告.docx
- 乡镇民主生活会批评与自我批评.docx VIP
- 陕西凤翔县马家庄秦墓出土的出土陶罐.docx VIP
- 采血后预防淤青的按压方式.pptx VIP
- 纺织厂供配电系统设计.doc VIP
- 乡镇领导班子成员相互批评意见.docx VIP
- 30.XX中专职业学校“十五五”五年中长期发展规划(2026-2030年).pdf
原创力文档

文档评论(0)