- 2
- 0
- 约 6页
- 2017-04-06 发布于贵州
- 举报
_图书情报工作_国内中文自动分词技术研究综述_图书情报工作_国内中文自动分词技术研究综述
国内中文自动分词研究综述*
奉国和1 郑伟2
1华南师范大学 经济管理学院,广州 510006
2河北北方学院 理学院,张家口 075000
〔摘要〕分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及,使中文分词技术成为了分词技术中的难点。论文全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的。
〔关键词〕中文分词 分词算法 歧义消除 未登录词〔分类号〕G354
Review of Chinese Automatic Word Segmentation
Feng Guohe1 Zhen Wei2
1School of Economics Management, South China Normal University, Guangzhou 510006
2College of Science, Hebei North University, Zhangjiakou 075000
[Abstract] Word segmentation is one of the key technology for natural language processing such as text auto-classification, information retrieval,information filtration, document auto-index,summarization auto-generation etc., Chinese word segmentation is difficult problem in word segmentation because of it’s complexity and uncertain language rules in nature.This paper sums up the research comprehensively of Chinese word segmentation algorithm, disambiguation method, unknown word recognition,auto-segmentaion systems etc.and summarizes Chinese word segmentation’s research difficult points and hot points today.
[Key words] Chinese Word Segmentation Word Segmentation Algorithm Disambiguation Method Unknown Word Recognition Word Segmentation System
中文分词是文本分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理经过学者共同努力,过去0多年中文分词取得,黄昌宁、赵海总结成绩笔者利用CNKI期刊数据库,以中文and分词and分词and分词为检索条件,进行篇名检索,经筛选得到研究论文篇归纳总结出该领域研究研究内容、研究热点与难点并展望发展。分词理论研究
.1分词算法研究
分词速度与精度目前分词算法很多,大致可归纳为:字符串匹配方法、理解分词方法、统计分词方法。
.1.1词典分词方法
算法
方法按照一定策略将待分析汉字串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功该方法需要确定三个要素:词典、扫描方向、匹配比较成熟的几种分词方法有:正向最大匹配法、逆向最大匹配法、最少切分。实际分词系统,都是把分词作为一种初分手段,通过各种其它的语言信息进一步提高切分的准确率。分词方法包含两个核心内容:分词算法与词典结构,可:①字典结构改进②改进扫描方式③将词典中的词按由长到短递减顺序逐字搜索整个待处理材料,一直到分出全部词为止。词典结构
直接影响分词算法的性能。三个因素:①词查询速度;②词典空间利用率;③词典维护性能。Hash表是方式,先对GB2312-1980中的汉字排序(即建立Hash表),然后将其后继词(包括词的属性等信息)放在相应的词库表中。孙茂松等设计并实验考察了三种典型的分词词典机制整词二分、TRIE 索引树及逐字二分着重比较它们的时间、空间效率。姚兴山提出首字Hash表、词次字Hash表、词次字结构、词3字Hash表、词3字结构、词4字Hash表、词4字结构、词索引表和词典正文,该结构提高查询速度,增大存储开销。陈桂林等介绍了一种高效的中文电子词表数据结构,它支持首字Hash和标准的二分查找,且不限词条长度,利用近邻匹配方法来查找多字词,提高了分词效率。目前文献看,围
您可能关注的文档
最近下载
- 运蔗司机安全培训教育课件.pptx VIP
- 赤峰华恒肌醇报批前公示.pdf
- 深度解析(2026)《TBT 3100.3-2017铁路数字信号电缆 第3部分:综合护套铁路数字信号电缆》.pptx VIP
- 电力工程安全技术交底.docx VIP
- 沥青道路施工方案(详).doc VIP
- 注册土木工程师(水利水电)工程规划专业.pptx VIP
- 人教版高中英语汇3500词(必背)带音标.doc VIP
- (完整版)神经调节知识框架图.pdf VIP
- 失眠障碍中西医结合诊疗专家共识.pdf VIP
- 深度解析(2026)《TBT 3100.2-2017铁路数字信号电缆 第2部分:塑料护套铁路数字信号电缆》.pptx VIP
原创力文档

文档评论(0)