- 53
- 0
- 约3.2千字
- 约 5页
- 2019-07-03 发布于广东
- 举报
中文词频统计系统设计分析
(广东电网有限责任公司东莞供电局信息中心)
摘要 随着互联网时代的到来,网络信息呈极速增长态势,互联网让人们的 牛活更加“碎片化”,有用信息的获取变更越来越不容易,中文词频统计系统有 效解决这一难题,帮助人们从一堆杂乱无章的文木数据中快速准确获取有价值的 信息。本文通过分析中文词频统计的关键技术,即中文分词技术,并经过对比分 析几种常用的中文分词工具后,最终通过开源的IK Analyzer完成中文词频统计系 统的实现。
关键词:中文词频统计关键技术综述;中文词频统计系统设计
刖S
目前我们正处于一个互联网时代,而信息量的高速增长带来的复杂性,需要 我们对其进行有效处理。如何利用计算机来进行有效地信息处理就产生了中文信 息处理技术。
中文信息处理是计算机对中文的音、形、义等信息进行处理和加工的过程, 它是自然语言处理的一个分支,是一门与计算机科学、语言学、数学等多种学科 相关联的综合性学科。从20世纪80年代开始,中文信息处理进入了快速发展阶 段,具体研究内容只要包括对字、词、句、段、篇、章的输入输出、压缩存储、 检索传输、分析理解和智能牛成等方面的技术。
随着网络信息的极速增长,有用信息的获取变得越来越不容易,中文词频统 计系统的诞生为人们解决这一难题,帮助人们从一堆杂乱无章的中文文木数据中 获取高频词或关键词,有助于准确把握文章的要义,从而深入了解其核心思想, 获得有用的信息。
1.中文词频统计关键技术
1.1中文分词技术
中文分词是中文词频统计首要解决的问题,也是中文词频统计的关键技术。 中文文本信息与英文文本信息存在一个明显差别,即在英文文本中,单词与单词之 间有空格分隔;而中文文本中,词与词之间不存在天然分隔符,同吋中文词语没有 清晰的定义。这些文本信息区别,要求在对中文文本信息进行处理前,必须将成 段的文本分隔成更小的词汇单元,这个过程即是中文分词。
中文自动分词是指使用自计算机自动对中文文本进行词语的切分,即像英文 那样使得中文句子中的词之间有空格以标识,达到被计算机自动识别语义的效果。 常用的基于词典分词的算法流程图如图1所示:
图1基于词典的分词算法流程图
1.2常用的中文分词工具
常用的中文分词工具有:CDWS中文分词系统、SCWS中文分词引擎、ICTCLAS 汉语分词系统和IK Analyzer中文分词工具。
CDWS中文分词系统
CDWS(The Modern Chinese Distinguishing Words System)是我国第一个实用性 的中文分词系统,它是由北京航空大学的梁南元教授于1984年设计并实现的。 CDWS采用的是直接匹配的分词算法,即“查字典”,通过从左到右的直接扫描 句子,遇到字典里有的词就标示出来,遇到复合词,则取最长匹配。比如“南京 市市长”,切分为一个整词,而不是“南京/市/市长”。而遇到词典里没有的词, 则全部切分为单个字,这样简单的分词就完成了。
SCWS中文分词引擎
由Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段 的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称, 人名,地名,数字年代等规则识别来达到基本分词,经小范围测试人概准确率在 90% - 95%之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb 左右的文本切词吋间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。
ICTCLAS汉语分词系统
ICTCLAS汉语词法分析系统是目前应用最广泛的分词系统,该系统由中科院 的两位研究员开发,深受用户好评。ICTCLAS分词系统采用层叠隐马尔科夫模型将 中文分词、未登录词识别、歧义词处理和词性标注集成在一个完整的系统中。该 系统支持用户词典、繁体中文、GBK、UTF-8 UTF?7、Unicode等多种编码格式。 目前已升级到ICTCLAS3.0, CTCLAS3.0分词速度单机996KB/S,分词精度98.45%, API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法 分析器。
IK Analyzer中文分词工具
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 从2006年12月推岀1.0版开始,IKAnalyzer已经推出了 3个大版本。最初,它 是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词 组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene 项目,同时提供了对Lucene的默认优化实现。IKAnalyzer3.0 —方面采用了特有 的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力;另一方面 采用了多子处理器
您可能关注的文档
最近下载
- 专题2 数据采集与编码 学案(含解析)2025届高中信息技术.DOCX VIP
- 高中地理课件湘教版:1-1中国的人口和民族.ppt
- 鲁科版高中化学选择性必修1第3章物质在水溶液中的行为3.3.2沉淀溶解平衡的应用课件(内嵌音频+视频).ppt VIP
- 建筑施工安全管理论文【推荐】.doc VIP
- 2025年高考地理识图填图完全手册(扫描版).docx
- 防火封堵材料 GB23864-2023.pdf
- 专题2 数据采集与编码 课件 2025届高中信息技术.pptx VIP
- 专题1 数据与大数据 课件 2025届高中信息技术.pptx VIP
- 鲁科版高中化学选择性必修1第3章物质在水溶液中的行为3.3.1沉淀溶解平衡与溶度积(内嵌音频+视频).ppt VIP
- 2025年甘肃省高考物理试卷(含答案解析).docx VIP
原创力文档

文档评论(0)