中文词频统计系统设计分析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文词频统计系统设计分析 (广东电网有限责任公司东莞供电局信息中心) 摘要 随着互联网时代的到来,网络信息呈极速增长态势,互联网让人们的 牛活更加“碎片化”,有用信息的获取变更越来越不容易,中文词频统计系统有 效解决这一难题,帮助人们从一堆杂乱无章的文木数据中快速准确获取有价值的 信息。本文通过分析中文词频统计的关键技术,即中文分词技术,并经过对比分 析几种常用的中文分词工具后,最终通过开源的IK Analyzer完成中文词频统计系 统的实现。 关键词:中文词频统计关键技术综述;中文词频统计系统设计 刖S 目前我们正处于一个互联网时代,而信息量的高速增长带来的复杂性,需要 我们对其进行有效处理。如何利用计算机来进行有效地信息处理就产生了中文信 息处理技术。 中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程, 它是自然语言处理的一个分支,是一门与计算机科学、语言学、数学等多种学科 相关联的综合性学科。从20世纪80年代开始,中文信息处理进入了快速发展阶 段,具体研究内容只要包括对字、词、句、段、篇、章的输入输出、压缩存储、 检索传输、分析理解和智能牛成等方面的技术。 随着网络信息的极速增长,有用信息的获取变得越来越不容易,中文词频统 计系统的诞生为人们解决这一难题,帮助人们从一堆杂乱无章的中文文木数据中 获取高频词或关键词,有助于准确把握文章的要义,从而深入了解其核心思想, 获得有用的信息。 1.中文词频统计关键技术 1.1中文分词技术 中文分词是中文词频统计首要解决的问题,也是中文词频统计的关键技术。 中文文本信息与英文文本信息存在一个明显差别,即在英文文本中,单词与单词之 间有空格分隔;而中文文本中,词与词之间不存在天然分隔符,同吋中文词语没有 清晰的定义。这些文本信息区别,要求在对中文文本信息进行处理前,必须将成 段的文本分隔成更小的词汇单元,这个过程即是中文分词。 中文自动分词是指使用自计算机自动对中文文本进行词语的切分,即像英文 那样使得中文句子中的词之间有空格以标识,达到被计算机自动识别语义的效果。 常用的基于词典分词的算法流程图如图1所示: 图1基于词典的分词算法流程图 1.2常用的中文分词工具 常用的中文分词工具有:CDWS中文分词系统、SCWS中文分词引擎、ICTCLAS 汉语分词系统和IK Analyzer中文分词工具。 CDWS中文分词系统 CDWS(The Modern Chinese Distinguishing Words System)是我国第一个实用性 的中文分词系统,它是由北京航空大学的梁南元教授于1984年设计并实现的。 CDWS采用的是直接匹配的分词算法,即“查字典”,通过从左到右的直接扫描 句子,遇到字典里有的词就标示出来,遇到复合词,则取最长匹配。比如“南京 市市长”,切分为一个整词,而不是“南京/市/市长”。而遇到词典里没有的词, 则全部切分为单个字,这样简单的分词就完成了。 SCWS中文分词引擎 由Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段 的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称, 人名,地名,数字年代等规则识别来达到基本分词,经小范围测试人概准确率在 90% - 95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb 左右的文本切词吋间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。 ICTCLAS汉语分词系统 ICTCLAS汉语词法分析系统是目前应用最广泛的分词系统,该系统由中科院 的两位研究员开发,深受用户好评。ICTCLAS分词系统采用层叠隐马尔科夫模型将 中文分词、未登录词识别、歧义词处理和词性标注集成在一个完整的系统中。该 系统支持用户词典、繁体中文、GBK、UTF-8 UTF?7、Unicode等多种编码格式。 目前已升级到ICTCLAS3.0, CTCLAS3.0分词速度单机996KB/S,分词精度98.45%, API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法 分析器。 IK Analyzer中文分词工具 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 从2006年12月推岀1.0版开始,IKAnalyzer已经推出了 3个大版本。最初,它 是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词 组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene 项目,同时提供了对Lucene的默认优化实现。IKAnalyzer3.0 —方面采用了特有 的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力;另一方面 采用了多子处理器

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档