- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 自然语言处理7.1 词法分析7.2 句法分析7.4 实验:Python中文文本分析与可视化7.3 语义分析习题序言 下载提示:该课件是本店铺精心编制而成的,希望大家下载后,能够帮助大家解决实际问题。课件下载后可定制修改,请根据实际需要进行调整和使用,谢谢! Download reminder: This courseware is carefully compiled by this shop. I hope that after you download it, it can help you solve practical problems. The courseware can be customized and modified after downloading, please adjust and use it according to actual needs, thank you!7.1 词法分析 第七章 自然语言处理7.1.1 词法分析概述将输入的句子字串转换成词序列并标记出各词的词性。这里所说的“字”并不仅限于汉字,也可以指标点符号、外文字母、注音符号和阿拉伯数字等任何可能出现在文本中的文字符号,所有这些字符都是构成词的基本单元。不同的语言对词法分析有不同的要求,例如英语和汉语就有较大的差距。例如:“我们研究所有东西”,可以是“我们——研究所——有——东西”也可是“我们——研究——所有——东西” 。英语等语言的单词之间是用空格自然分开的,很容易切分一个单词,因而很方便找出句子的每个词汇。例如:“We study everything”,分词结果为“We——study——everything”。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法1、基于字符串匹配的方法 基于字符串匹配的方法又称为机械分词方法或字典匹配方法,它主要依据词典的信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。 (1)正向最大匹配分词算法 所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法1、基于字符串匹配的方法 (1)正向最大匹配分词算法 其基本思想是:假设己知机器词典中最长词条的长度为N,则以N作为减字开始的长度标准,首先将待扫描的文本串S从左向右截取长度为N的字符串W1,然后在词典中查找是否存在该字符串W1的词条。如果匹配成功,则W1标记为切分出的词,再从待扫描文本串的N+1位置开始扫描;如果匹配失败,将截取长度减1后,再从S中截取此长度的字符串W1’,重复上述匹配过程,直至截取长度为1为止。以扫描完句子作为整个匹配过程结束。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法1、基于字符串匹配的方法 (2)逆向最大匹配分词算法 逆向最大匹配分词法,其基本思想与正向最大匹配分词法大体一致,只是扫描方向换成了从右至左。换句话说,当扫描汉语句子时,根据词典中最长词条的长度,从句末开始向左截取出汉语字符串与词典中的词条匹配,匹配流程与减字法相同,直至扫描到句首为止。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法1、基于字符串匹配的方法 (3)双向最大匹配分词算法 这种分词算法侧重于分词过程中检错和纠错的应用,其基本原理是对待切分字符串采用正向最大匹配和逆向最大匹配分别进行正向和逆向扫描和初步切分,并将正向最大匹配初步切分结果和逆向最大匹配初步切分结果进行比较,如果两组结果一致,则判定分词结果正确,如果存在不一致,则判定存在着切分歧义,需要进一步采取技术手段来消解歧义。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法2、基于统计的方法 (1)隐马尔可夫模型 假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子(称这个骰子为D6),6个面,每个面(1,2,3,4,5,6)出现的概率是1/6。第二个骰子是个四面体(称这个骰子为D4),每个面(1,2,3,4)出现的概率是1/4。第三个骰子有八个面(称这个骰子为D8),每个面(1,2,3,4,5,6,7,8)出现的概率是1/8。7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法2、基于统计的方法 (1)隐马尔可夫模型7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法2、基于统计的方法 (1)隐马尔可夫模型7.1 词法分析 第七章 自然语言处理7.1.2 基本分词方法2、基于统计的方法 (2)条件随机场(CRF)7.
文档评论(0)