- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文分词算法研究与分析.doc
中文分词算法研究与分析 摘 要:中文分词作为搜索引擎以及自然语言处理的重要组成部分,是当前这一领域的研究热点和难点之一。文中首先分析了中文分词的特点,包含基于字符串匹配分词算法、基于统计分词算法、基于理解分词算法这三大类的各种中文分词算法。并通过分析和对比,对各种中文分词算法进行了总结与展望。 关键词:中文分词;字符串匹配分词;统计分词;理解分词 中图分类号:TP393 文献标识码:A 文章编号:2095-1302(2016)01-00-03 0 引 言 早在上世纪80年代,我国就出现了第一个自动中文分词系统。中文分词的研究工作主要在国内,其研究机构主要为国内高校实验室及研究室,例如,中科院计算所数字化研究室的汉语词法分析系统ICTCLAS、北大计算语言学研究所的分词系统、微软研究院自然语言研究所的Microsoft Research汉语句法分析器,还有北京师范大学、南京大学等高校的分词系统以及当前较好的商业软件海量科技公司的海量智能分词等[1]。随着对中文分词研究的深入,中文分词的准确度及速度都在逐步提高。其准确度从80%提高到99%左右,速度从几百字每秒提高到几十万字每秒。当前,搜索引擎已然发展成为我们日常生活、工作、学习中不可或缺的工具。常见的搜索引擎有百度搜索、Google搜索、搜狗搜索、360搜索等。搜索引擎,即指把收集到的文档、网页进行索引,建立起索引数据库,且用户可通过查询关键词进行全文检索操作。作为当今互联网中最具技术含量的应用产品之一,搜索引擎涉及到的技术十分复杂,主要包括“分词―索引―搜索”。由此可见,分词在搜索引擎中占据十分重要的地位。当前的中文分词算法非常多,是比较热门的研究方向之一。因此,本文将对中文分词算法进行研究与分析。 1 中文分词特点 英文的基本单位是词。因此,英文分词就相对来得简单些。因为英文中词与词之间以空格为分隔符,通过空格的切分就可以进行英文分词。在英文分词中,大体需要进行的步骤有:通过空格分隔符,分割字符串得到单词组;进行大小写字符转换;停用词过滤;词干分析提取。而中文分词就相对困难许多。因为中文的基本单位是字而非词。即中文中的字、句、段才有明显的分割线,而词却没有明显的分割线。因此,计算机很难如同英文分词那样通过分隔符进行中文分词。中文分词在分词中主要面临的难点有如下4点: (1)容易产生歧义。中文词由字与字组合而成,相同的一段文字在中文分词中可能因为产生不同的划分而产生歧义。在汉语使用中,由于其使用的灵活性、多样性等特点,相同的词在不同的语境中也有可能表示不同的意思。 (2)中文词的规则、结构较为复杂。当前,词的概念仍旧不明确,没有统一、严格的非形式的定义。并且中文的同音词较多,语法尚未规范化。 (3)中文单词数量较为庞大。常用的中文单词有十几万,而随着社会的发展,新的词汇、网络流行语也不断出现。 (4)未登录词的识别。对于基于词典的中文分词算法,词典的完整性程度大大影响分词的效果。而由于新词的不断增加,词典则常有一些未登录词,这使得基于词典的中文分词算法难于识别那些未登录词。 2 中文分词算法分析 当前,中文分词算法主要有三大类,即基于字符串匹配的分词算法、基于统计的分词算法以及基于理解的分词算法。其中,基于字符串匹配的分词算法是根据某种分词策略将要分词的字符串和一个“足够大”的词典进行匹配,从而切分出中文单词;基于统计的分词算法则是通过统计相邻字与字之间的联合出现概率来判断是否是一个单词;基于理解的分词算法是在中文分词时进行句法、语义分析,并利用句法信息和语义信息来处理歧义现象。而这三类中文分词算法即代表着中文分词算法的研究三大方向。 2.1 正向最大匹配算法 正向最大匹配算法[2,3]是基于字符串匹配分词算法的一种,采用“长词优先”的切分原则进行中文分词。其思想是从左到右依次扫描,取词典中最大长度的字符串作为当前的匹配字段;查询词典并与之匹配。如果匹配成功,则将其作为一个中文单词切分出当前匹配字段;如果匹配失败,则去掉当前匹配字段的最后一个字,剩下的字符串作为新的当前匹配字段,重复匹配;循环操作,直至当前匹配字段的字数为1;重复正向最大匹配过程,直至切分出所有词。虽然正向最大匹配算法经常作为解决中文分词问题的基础解决方案之一,但其不足之处也十分明显。例如,初始匹配词长的选取问题,太长匹配效率过低,太多准确度又受到影响;由于算法遵循“长词优先”原则,使得切分出来的词语可能不是我们想要的分词结果,而且由于切分过程没有考虑歧义切分,其准确度大大降低。最主要的一点在于切分出来的单词是最先N个的最大匹配结果,即局部最大匹配,而非所谓的“长词优先”。 2.2 改进的正向最大匹配算法 由于正向最大匹配算法存在的不足之处,很多人开始研究如何改进正向最大匹配算法。其中,文献[4]针对初始词长
文档评论(0)