自然语言处理分词大作业-Read.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言处理分词大作业-Read

自然语言处理分词大作业 姓 名: 黄舒颖 学 号: 院 系: 信息科学技术学院 目录 自然语言处理分词大作业 1 一. 分词概述 3 1.1 引言 3 1.2 汉语分词的歧义 3 1.3 汉语分词方法 4 1.4 实验数据 4 1.5 本文方法 4 1.6 开发环境 5 二. 方法 6 2.1 最大匹配算法 6 2.2 最大概率算法 7 2.3 总词数最少分词算法 8 2.3 HMM(隐马尔可夫模型)算法 9 三. 方法实现 10 3.1 程序整体框架 10 3.2 最大匹配算法 11 3.3 最大概率算法 13 3.4 总词数最少分词算法 14 3.5 HMM算法 16 四. 实现结果 19 五.后记 21 分词概述 1.1 引言 语言学中一般将“词”定义为“能够独立运用的,有意义的最小语法单元”。自然语言中句子是由词组成的,而计算机要理解和处理自然语言就是从词这一步开始的。 汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分隔符(如空格)汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自 70 年代末以来,许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法 分词过程中歧义产生的根源可归结为以下三类: (1)由自然语言的二义性所引起的歧义,称为第一类歧义。如:“乒乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。这两种切分形式无论在语法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的切分。 (2)由机器自动分词产生的特有歧义,称为第二类歧义。如:“在这种环境下工作是太可怕了”用机器切分可以切分为“在/这种/环境/下工/作/是/太/可怕/了” 也可以切分为,“在/这种/环境/下/工作/是/太/可怕/了”。对本句来说,只有第二种切分是正确的,用人工分词是不可能产生歧义的,歧义是由于机器机械切分产生的。 (3)由于分词词典的大小而引起的歧义,称为第三种歧义。如:“王小二是一个农民”用机器切分被分为“王/小/二/是/一个/农民”,这里“王小二”是一个人名,在汉语中应是一个词,所以这个切分是错误的。由于机器自动切分是依据分词词典进行的,故词典中没有的词,就不可能被正确切分,分词词典不可能也没有必要包括所有的词(如人名、地名),同时,词典中所包括的词越多,就会产生新的歧义。例如“发展社会主义的新乡村”,新乡是一个地名,若词典中有该词,则“新乡村”是一个歧义字段。因此,不论词典的大与小都可以产生歧义。 统计表明第一类歧义字段只占歧义字段总数的 5%左右,剩下来的就都是第二类歧义字段和第三类歧义字段。 而对于第二类歧义,又主要有两种:组合型歧义与交集型歧义。其定义分别如下: 定义1: 汉字串 AJB 被称作交集型切分歧义,如果满足 AJ、JB 同时为词(A、J、B 分。此时汉字串 J 被称作交集串。别为汉字串) [例]交集型切分歧义:“结合成” a. 结合│成 b. 结│合成 其中 A=“结”,J=“合”,B=“成”。 定义2: 汉字串 AB 被称作多义组合型切分歧义,如果满足 A、B、 AB 同时为词。 [例]多义组合型切分歧义:“起身” a. 他站│起│身│来。 b. 他明天│起身│去北京。 1.3 汉语分词方法 基本的分词方法: 最大匹配算法(Maximum Match based approach) 最大概率方法(Probability approach to Word Segmentation) 基本分词算法就是单纯的没有经过添加规则或统计方法的最基本的分词方法。它是其它分词方法的基础。由于这类方法太过机械,得到的结果难以满足实际应用的要求的,于是就有在此基础上人工参与设计加入知识的方法。 基于规则的分词方法主要是在分词的过程中加入词法规则、语法规则甚至语义规则来提高分词的质量。 基于统计的分词方法主要是用在分词过程中出现的歧义现象的消歧。基于统计的方法主要靠一个或多个语料库,该语料库一般都是训练语料库,规模虽然较小,但有一定的代表性。该方法根据从语料库中的相关信息统计得到的数据(主要是词频和字间邻接关系)来指导分词,如:对可能的分词结果根据统计得到正确性最大的分词结果。 1.4 实验数据 1. 词和对应的频率表,可以求出每个词出现的概率,用于最大概率法 2. 人民日报 词性标注语料库 1.5 本文方法 本文尝试采用了最大匹配法,最大概率法,HMM算法算法来实现了对汉语的分词。 1.6 开发环境 软件平台: 硬件平台:?CPU:?

文档评论(0)

zhuwo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档