自然语言及语音处理项目式教程 课件2.2.2 中文分词.pptx

自然语言及语音处理项目式教程 课件2.2.2 中文分词.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

掌握中文分词技术?初识文本基础处理

中文分词技术是自然语言处理中的重要基础技术之一,也是中文文本处理的关键步骤。中文分词:将连续的文本序列切分成词汇单元。知识引入

中文分词简介中文分词工具jieba库

中文分词简介中文分词:将汉字序列按照一定规范逐个切分为词序列。英文:单词之间以空格为自然分隔符,分词自然地以空格为分隔符进行切分。中文:依靠一定技术和方法寻找类似英文中空格作用的分隔符。基于规则的分词基于统计的分词......

基于规则的分词基于规则的分词(基于词典的分词)基本思想。将待分词语句中的字符串和词典逐个匹配。匹配的字符串则切分,不匹配则减去边缘的某些字符。从头再次匹配。至匹配完毕或没有找到词典的字符串结束。

基于规则的分词

正向最大匹配法正向最大匹配法(MM法)思路:

正向最大匹配法正向最大匹配法——示例:

正向最大匹配法01问题:容易出现切分歧义的情况。正向最大匹配法可能会将“农村基础设施建设”切分为“农村”“基础设施”和“建设”3个部分,而不是作为一个整体。02在实际应用中,需要结合其他分词算法以及上下文语境等方法进行优化和修正。

逆向最大匹配法逆向最大匹配法(RMM法)思路:从待分词文本的右侧开始扫描。先找到长度最长的词汇。再从右侧未分词的部分开始重复以上步骤。直到待分词文本被分词完毕。

逆向最大匹配法逆向最大匹配法——示例:

逆向最大匹配法01问题:存在切分歧义。对于本例中的“乡村振兴”词汇,逆向最大匹配法会将其切分为“乡村”和“振兴”,而不是作为一个整体。02在实际应用中,需要结合其他分词算法以及上下文语境等方法进行优化和修正。

双向最大匹配法双向最大匹配法(BMM法)思路:将MM法和RMM法的结果进行对比。选取两种方法中切分次数较少的作为切分结果。优势:避免歧义和误切分的问题。问题:计算量较大,实现相对复杂。

双向最大匹配法双向最大匹配法具体实现注意。双向最大匹配法需要确定一个分词长度的范围,一般根据语料库的统计特征进行确定。双向最大匹配法需要根据规则来选择合适的分词结果。左右分词结果相同,选择任意一种结果。左右分词结果不同,选择单字数较少的一种结果。双向最大匹配法可以进一步优化。在一些常见词汇的情况下,可以提前将其从待分词文本中删除,以减少计算量。

基于统计的分词基于统计的分词基本思想:中文语句中相连的字出现的次数越多。作为词单独使用的次数也越多。语句拆分的可靠性越高。分词的准确率越高。

基于统计的分词基于统计的分词步骤:建立统计语言模型1运用模型划分语句,计算被划分语句的概率,选取最大概率的划分方式进行分词2

基于统计的分词

n元语法模型n元语法模型:基于n-1阶马尔可夫链的一种概率语言模型,通过n个词语出现的概率来推断语句的结构。文本内容进行大小为n的滑动窗口操作每个词语序列称为n-gram形成长度为n的词语序列n-gram基本思想

n元语法模型n元语法模型应用:概率论、通信理论、计算语言学、计算生物学、数据压缩......自然语言处理:用户使用n元语法模型来计算一个给定文本中下一个词语出现的概率,从而实现文本自动补全等功能。信息检索:用户使用n元语法模型来评估查询与文档之间的匹配程度,从而提高检索效果。语音识别:用户也可以使用n元语法模型来提高识别准确率。

n元语法模型n元语法模型——计算条件概率例:句序列为S={今天,早上,我,吃了,包子},估计语句“今天早上我吃了包子”在当前语料库中出现的概率。词语B在词语A后出现的条件概率词语A和B作为相邻词语对出现的次数词语A出现的次数每个词出现的次数

隐马尔可夫模型隐马尔可夫模型(HMM):用于建模时序数据的概率模型。基本假设:某个系统的内部状态无法被观察,但可以通过观察到的外部数据进行推断。组成部分:状态转移模型:描述系统内部状态的转移规律(不可见);观测模型:描述每个状态下观测数据的概率分布(可见)。

隐马尔可夫模型隐马尔可夫模型:将分词问题转化为一个序列标注问题。定一个输入句子。寻找最有可能的标注序列。标注序列即为分词结果。

隐马尔可夫模型序列标注过程: 通过对训练语料进行学习和统计,得到HMM的模型参数。状态转移概率矩阵发射概率矩阵初始状态概率向量计算给定输入句子的所有可能的状态序列。选择其中概率最大的状态序列作为分词结果。隐藏状态:当前状态下的词性可见状态:当前状态下的字符

隐马尔可夫模型隐马尔可夫模型——示例:乡村振兴是当代中国的重要战略,必须坚持农业农村优先发展,发挥好农村地区人力、资源、市场等方面的优势,推动农村一二三产业融合发展。

隐马尔可夫模型隐马尔可夫模型——示例结果:乡村振兴/是/当代/中国/的/重要/战略/,/必须/坚持/农业/农村/优先/发展/,/发挥/好/农村/地区/人力/、/资源/、/市场/等/方面

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档