- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于隐马尔科夫的中文分词.
分词系统工程报告课程:自然语言理解姓名:郑波学号:2013211644班级:计算机科学与技术13-2班日期:2015年10月24日一、研究背景随着计算机网络的飞速发展和普及,信息检索日益重要。在这种环境下,搜索引擎逐渐成为技术人员的开发热点,比如Google、百度、微软必应、网易有道等为代表的大型搜索引擎成为人们生活工作的不可或缺的网络工具。由此可见以文本为主要对象的自然语言处理和信息检索的重要性日益显著。就信息检索来说,最重要的并不是找到所有的结果,而是得到最相关最符合用户需求的结果。对于自然语言来说,这就涉及到了分词,分词的准确与否,常常直接影响检索的准确性。与英美语系不同,中文的词与词之间是没有自然界限的,如果要使搜索引擎准确无误地理解用户的搜索需求,返回用户最希望获得的资料,一个准确度好,效率高的分词功能十分必要。中文分词不像西文那样有明显的空格分隔符,所以对中文的分词十分困难。在现成的中文自动分词方法中,基于词典或者以词典切分为主结合统计模型的分词方法占主导地位,而中文分词的主要困难不在于词典中词条的匹配,而是在于切分歧义的消解和未登录词的识别,这两大难题一直没有得到非常有效的解决。中文分词技术伴随着搜索引擎技术的发展而发展,国内外专家和学者对于中文分词技术中的困难和解决方案已经做了广泛的研究和探讨。在此基础上,提高中文分词技术的准确率和适应性,在科研理论和实际应用中,都具有广泛的意义。二、模型方法本工程使用了基于单字状态的隐马尔可夫模型分词方法首先,讲一下隐马尔可夫模型,它实际上就是一个五元组(O,S,π,A,B)其中:O:一个可观察序列,对于一个分词实例就是一个汉字字串,其中(之后的k就代表单字总数)S:隐藏状态的集合,对于一个分词实例就是每一个字的状态的集合,在本工程中,集合为这四种状态{S(单字成词),B(词头),M(词中),E(词尾)}。(之后的n就代表状态总数)π:向量π是初始状态空间的概率,就是每个状态于词库中的初始概率分布A:A是一个n×n维的状态转移矩阵,该矩阵的A(i,j)的值表示对每个词i状态到j状态的转换概率(事先对于状态进行编号)。对于本工程使用的状态集来说,有些状态转移是不可能的(比如词尾词中,词头单字成词),所以大简化了矩阵的求解。B:B矩阵是一个n×k维的观察概率分布矩阵,对于B(i,j),就表示在当前状态的情况下可观察单字是的概率,比如在对“我是中国人”字串分析的时候,B(0,0)表示当是单字成词的情况下,词库中是“我”的概率。那么有了这个五元组,我们就能进行下一步计算了。明确目标:给每个词打上最有可能的词状态标注,根据词的状态标注切分字串。(单字成词切开,遇到词尾切开),于是问题就变成了对最大概率词状态序列的求解,这正是隐马尔可夫模型要解决的三个问题之一。求解算法:Viterbi(维特比算法)定义两个n×k维矩阵 ,其中:, 就是说保存前一词的所有可能状态到当前词的状态j的最大概率,了这个最大概率时对应的前一个词的状态,这样,当对最后一个词分析完成并求得最大概率后(最后一个最大概率就是全局最优概率),就能通过矩阵逆推到第一个词的状态,最终确定所有词的状态,并进行切分操作三、系统设计根据本工程的模型要求,先要求出隐马尔可夫模型的五元组。O是可观察序列,已给,只需读入内存即可S:S是状态集合,我们这里设定为{S,B,M,E},所以先要对语料库进行处理,使语料库的每个字的后面紧跟该字的状态,比如“中/B国/M人/E”,“研/B究/E”,处理代码如下(本工程全部采用Python语言实现):src=open(OnlyWord.txt,r)dst=open(state.txt,w)str= while True: line=src.readline() if line: Rst=line.split() for i in Rst: lenth=len(i) if lenth==1: i=i+/S str=str+S else: i=i.replace(i[0],i[0]+/B) str=str+B for k in range(0,lenth-2): i=i[:3*(k+1)+1]+/M+i[3*(k+1)+1:] str=str+M i=i.replace(i[len(i)-1],i[len(i)-1]+/E) str=str+E dst.write(i+\t) dst.write(\n) else: break处理结果截图:π的求解: π是初始状态概率分布,就是说,对于语料库每个词,初始状态的发生概率(实际上词中词尾的初始概率就是0),代码如下:import mathpai=[] #初始状态概率A=[] #状态转移矩阵B=[] #状态为某
您可能关注的文档
- 基于模糊综合评价法的道路施工安全评价..doc
- 基于模糊控制的移动机器人_外文翻译..doc
- 基于模糊规则的PID控制器设计..doc
- 基于汽车空气动力性研究的车体外观及优化改型探究..docx
- 基于波特五力模型的唯品会竞争环境分析..doc
- 基于消费者心理的消费环境设计..doc
- 基于深度学习的专家排序方法..doc
- 基于海水源热泵系统的运行研究..doc
- 基于深度学习的图像识别进展百度的若干实践..docx
- 基于混沌数列变换的图像加密算法..doc
- 《GB/T 32879-2025电动汽车更换用电池箱连接器》.pdf
- 中国国家标准 GB/T 21649.2-2025粒度分析 图像分析法 第2部分: 动态图像分析法.pdf
- 中国国家标准 GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定》.pdf
- GB/T 20899.9-2025金矿石化学分析方法 第9部分:碳量的测定.pdf
- 《GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法》.pdf
- GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- 中国国家标准 GB/T 33820-2025金属材料 延性试验 多孔状和蜂窝状金属高速压缩试验方法.pdf
- GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试.pdf
- 《GB/T 45910-2025信息技术 生物特征识别模板保护方案的性能测试》.pdf
文档评论(0)