深度学习案例教程教案6.7中文分词原理.docx

下载文档

0
0
约1.05千字
约 4页
2025-03-03 发布于山东
举报
版权申诉
保障服务

深度学习案例教程教案6.7中文分词原理.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

07中文分词原理

我们本节课来学习中文分词原理。

中文分词(ChineseWordSegmentation)是中文自然语言处理中的一个基础任务，由于中文文本没有像英文那样的明显的单词分隔符，所以中文分词的任务就是将一个汉字序列切分成一个个单独的词。

中文分词的常见方法主要有3种。

第一个方法是基于字符串匹配的分词方法。

这类方法主要有最大匹配法(如正向最大匹配法、逆向最大匹配法和双向最大匹配法)。它们都是基于词典进行匹配的，比如正向最大匹配法是指从左向右取词，取词的长度与词典中最长的词相同，然后逐渐缩短长度，直至匹配成功。

第二个是基于统计的分词方法。

这类方法包括基于N-gram模型、HMM模型等。比如HMM模型会把分词任务当作序列标注问题来解决，对每个字进行标注，从而实现分词。

第三个是深度学习方法。

近年来，随着深度学习的发展，一些基于神经网络的中文分词方法也得到了广泛的应用。

在这里，我们主要讲解一下HMM模型。

基于HMM的中文分词原理采用隐藏马尔科夫模型，它是统计分词方法中常用的一种，它是一种统计模型，用来描述一个含有未知参数的马尔科夫过程。

在中文分词中，HMM用于解决切词的歧义问题，通过对字进行状态标注，从而达到分词的目的。

HMM模型在分词中的应用，通常是将分词问题视作为一个序列标注问题，即给出一个观察序列，找出最可能的状态序列。

在这里是给出字序列，找出每个字的状态，比如B/M/E/S，也就是词首、词中、词尾、单字成词等等。

在分词的过程中，HMM模型需要三个主要的参数：

初始概率：是每个标签作为序列的起始标签的概率。

转移概率：就是从当前标签转移到下一个标签的概率。

发射概率：每个标签生成某个观察值(这里是字)的概率。

以上的这些概率参数，都是通过对大量的已经分好词的语料进行统计得到的。

在实际操作中，可以使用jieba来进行分词，这个工具中已经内置了训练好的模型，可以直接使用，而无需我们从头开始训练模型。

我们来看一个基于jieba分词的应用案例。

在这个例子中，我们首先导入了jieba库，

然后定义了一个句子，

使用jieba.cut方法对句子进行分词，

最后打印出分词结果。

需要注意的是，虽然中文分词看起来是一个简单的任务，但是由于中文的复杂性，实际上是一个相当复杂的问题，需要考虑很多因素，如歧义消解、人名识别等问题。

好，本节对于中文分词原理就了解到这里。

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习案例教程教案6.7中文分词原理.docx