- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
07中文分词原理
1
我们本节课来学习中文分词原理。
中文分词(ChineseWordSegmentation)是中文自然语言处理中的一个基础任务,由于中文文本没有像英文那样的明显的单词分隔符,所以中文分词的任务就是将一个汉字序列切分成一个个单独的词。
2
中文分词的常见方法主要有3种。
第一个方法是基于字符串匹配的分词方法。
这类方法主要有最大匹配法(如正向最大匹配法、逆向最大匹配法和双向最大匹配法)。它们都是基于词典进行匹配的,比如正向最大匹配法是指从左向右取词,取词的长度与词典中最长的词相同,然后逐渐缩短长度,直至匹配成功。
3
第二个是基于统计的分词方法。
这类方法包括基于N-gram模型、HMM模型等。比如HMM模型会把分词任务当作序列标注问题来解决,对每个字进行标注,从而实现分词。
4
第三个是深度学习方法。
近年来,随着深度学习的发展,一些基于神经网络的中文分词方法也得到了广泛的应用。
5
在这里,我们主要讲解一下HMM模型。
基于HMM的中文分词原理采用隐藏马尔科夫模型,它是统计分词方法中常用的一种,它是一种统计模型,用来描述一个含有未知参数的马尔科夫过程。
在中文分词中,HMM用于解决切词的歧义问题,通过对字进行状态标注,从而达到分词的目的。
6
HMM模型在分词中的应用,通常是将分词问题视作为一个序列标注问题,即给出一个观察序列,找出最可能的状态序列。
在这里是给出字序列,找出每个字的状态,比如B/M/E/S,也就是词首、词中、词尾、单字成词等等。
7
在分词的过程中,HMM模型需要三个主要的参数:
初始概率:是每个标签作为序列的起始标签的概率。
转移概率:就是从当前标签转移到下一个标签的概率。
发射概率:每个标签生成某个观察值(这里是字)的概率。
以上的这些概率参数,都是通过对大量的已经分好词的语料进行统计得到的。
8
在实际操作中,可以使用jieba来进行分词,这个工具中已经内置了训练好的模型,可以直接使用,而无需我们从头开始训练模型。
我们来看一个基于jieba分词的应用案例。
9
在这个例子中,我们首先导入了jieba库,
10
然后定义了一个句子,
11
使用jieba.cut方法对句子进行分词,
12
最后打印出分词结果。
需要注意的是,虽然中文分词看起来是一个简单的任务,但是由于中文的复杂性,实际上是一个相当复杂的问题,需要考虑很多因素,如歧义消解、人名识别等问题。
好,本节对于中文分词原理就了解到这里。
您可能关注的文档
- 深度学习案例教程 教案全套 钱月钟 第1--9章 深度学习简介--语音识别.docx
- 深度学习案例教程 教案1.3 深度学习的发展.docx
- 深度学习案例教程 教案1.1 人工智能与机器学习.docx
- 深度学习案例教程 教案1.6 深度学习的应用领域-自然语言的处理.docx
- 深度学习案例教程 教案1.2 深度学习定义及分类.docx
- 深度学习案例教程 教案1.5 深度学习的应用领域-计算机视觉.docx
- 深度学习案例教程 教案1.4 深度学习的应用领域-语音识别.docx
- 深度学习案例教程 教案1.8 深度学习框架介绍.docx
- 深度学习案例教程 教案1.7 深度学习的特点.docx
- 深度学习案例教程 教案2.2PyTorch安装和Pycharm安装.docx
- 苏教版8年级上册数学全册教学课件(2021年10月修订).pptx
- 比师大版数学4年级下册全册教学课件.pptx
- 冀教版5年级上册数学全册教学课件.pptx
- 办公室普通党员2024年组织生活会个人对照检查发言材料供参考.docx
- 领导班子成员2025年组织生活会“四个带头”对照检查材料范文.docx
- 2024年度专题组织生活会个人“四个带头”对照检查材料范文.docx
- 党支部领导班子2025年民主生活会“四个带头”个人对照检查材料范文.docx
- 2024年抓基层党建工作述职报告参考范文.docx
- 2024年度民主生活会征求意见情况的报告范文2篇.docx
- 普通党员2024年组织生活会个人“四个带头”对照检查发言材料2篇.docx
文档评论(0)