一种基于中文分词应用研究.docVIP

下载本文档

2
0
约3.37千字
约 7页
2018-08-13 发布于福建
举报
版权申诉

一种基于中文分词应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于中文分词应用研究

一种基于中文分词的应用研究　　摘要：词语是句子组成的基本单元，与英文中根据空格进行分词不同，汉语本身的特点是以单字为基本单位，连续的字串组成句子，句子和段落间才有标点符号和换行进行界限的划分。在句子中词语是紧密相接的，这给中文的分词工作造成一定的困难。　　关键词：命名实体；词性标注；语义倾向性分析　　1词语的正确切分　　中文分词的基本处理过程为：针对输入的字串进行分词、过滤无关信息，输出含有单词与数字串等一系列分隔号的字符串。目前汉语分词中存在的主要难点包含识别词典中的未登录词语和切分时产生的分歧，既降低了汉语分词的准确度，又提高了关键词的判别难度，在切分歧义和未登录词识别问题叠加在一起时会进一步增加中文信息处理的难度。　　所以根据中文词语之间的这种特征，在进行分词的处理时要注意的问题在于：①词语的正确切分，以保证避免歧义；②未定义词语或新的命名实体的识别与提取工作；③词性的注释。常见的分词方法主要有：①基于字符串匹配的分词方法；②基于理解的分词方法；③基于统计以及机器学习的分词方法。　　基于字符串匹配的分词方法：这种方法又被称为机械分词法，其是根据一定的策略将准备分析的汉字字符串与一个较大的机器词典中的所有词条进行匹配，若其字符串与词典中的某个字符串相符，则表示成功进行一次字符串的匹配。几种常见的机械分词方法为：①正向最大匹配法（沿字符串方向从左至右，以字符串长度最高词的优先）；②逆向最大匹配法（从右至左的方向）；③最少切分法（从每一句中切分出的词语数最少）。其优点在于速度较快、算法简单；然而其也暴露出难以处理歧义词语的问题并且很难对词典之外的词进行处理。　　基于理解的分词方法：这种分词方法是使计算机模拟人大脑对句子的理解方式，从而达到切分并识别词语的目的。其基本思想是在分时的过程中同时进行句法、语义分析，利用句法和语义信息来处理歧义现象。其主要包含3个部分：总控部分、句法语义子系统、分词子系统。因为汉语语言文本知识的复杂性，很难将各种语言用信息组织成机器可以直接读取的方式，所以目前基于理解的分词系统的研究还处在起步阶段。　　基于统计以及机器学习的分词方法：从表现形式来看，词是字的稳定组合，所以一组相邻的字共现的次数越多，其被确定为一个词的可能性就越大，字和字之间共现的频率就能够比较好的反应构成词语的可信度。这种方法是基于词性标注和统计特征，对中文词语进行建模，即利用观测得到的数据（已经标注好的语料）对模型参数进行估计，即参数训练。随后在分词阶段再使用模型计算多种分词结果出现的概率，将出现概率最大的分词结果视作最后结果。其优点在于不受被处理领域的文本约束，能较好地处理歧义词语和词典外词语的问题，其效果比基于字符串匹配效果更出色。然而其需要大量的人工标注数据，其分词速度也比较慢，计算量大。基于统计的分词方法只需对语料中字符串的共现概率进行统计，不需要设置切分词典，较为方便。这种方法会使用例如条件随机场模型、支持向量机、最大熵模型和隐马尔科夫模型等统计模型。一般是利用大量的语料资源，依靠统计学习和机器学习的方法来建立语言的统计模型，对语言进行一定的处理。隐马尔科夫模型在其中有较为广泛的应用，其方便于将模型的参数与具体的实际意义相对应。　　计算语言学家在近些年以来更加对基于语料库分析的自然语言处理方法越来越重视。随着语料库语言学的发展，数理统计知识的应用计算语言学家来说也显得越来越重要，更何况规则方法的适用性越来越窄的情况。即使过去的语言学为我们带来了大量的语言范本与实例，但是人类还是难以掌握语言计算的具体规律。数理统计的方法呼之欲出，其发展也逐渐成熟，其利用采取处理的大量文本的语料库，对其中的文本进行统计分析，便可把握该类文本的共性与规律。进一步来讲，为了充分利用这些规律，便可以建立出一定的统计学的算法。统计学算法近年来在随机过程领域集中较多。　　2命名实体的识别　　命名实体的识别是位于自然语言处理中的一项基础性工作，其在文本分类、信息抽取、信息检索等方面具有较为重要的作用。其识别的效果会对分词精度和词性标注有较大影响，解决好命名实体的识别是提高分词精度的一个较为主要的原因。命名实体主要被分成人名、机构名、地名、时间、日期、百分数和货币等七类。基于隐马尔科夫模型的命名实体识别过程本质为将命名实体识别任务视作为序列标注问题，即解码问题，利用训练参数为输入的字符串标注最佳的状态序列。　　相比于英文命名实体的研究，中文在这方面研究开始较晚，且存在有一定难度的分词问题，所以对中文命名实体的识别率和召回率要低于英文。其难点集中体现在：　　（1）命名实体在不同语境下具有歧义。例如“联想”既可以表达其本来的词义，有时又可以表达出一个企业的名称。　　（2）命名实体数量众多，很难全部收录字