- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
串频统计和词形匹配相结合的汉语自动分词系统-中文信息学报
中 文 信 息 学 报
第 12 卷 第 1 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo1. 12 No. 1
串频统计和词形匹配相结合的
汉语自动分词系统①
刘 挺 吴 岩 王开铸
哈尔滨工业大学计算机系 15000 1
【摘要】 本文介绍了一种汉语 自动分词软件系统 ,该系统对原文进行三遍扫描 :第一
遍 ,利用切分标记将文本切分成汉字短串的序列 ;第二遍 ,根据各短串的每个子串在上下文
中的频度计算其权值 ,权值大的子串视为候选词 ;第三遍 ,利用候选词集和一部常用词词典
对汉字短串进行切分 。实验表明 ,该分词系统的分词精度在 1. 5 %左右 ,能够识别大部分
生词 ,特别适用于文献检索等领域 。
关键词 中文信息处理 自动分词 软件系统
一 、引 言
汉语自动分词是汉语信息处理的基础环节 ,迄今为止 ,学者们已提出了正向最大匹配 、
逆向最大匹配 、逐词遍历 、设立切分标志、最佳匹配 、有穷多层次列举 、词频统计 、邻接约束 、
专家系统 、最少分词 、神经元网络等多种分词方法 ,不同分词方法模拟了人类分词行为的不
同侧面 ,服务于不同用途的中文信息处理系统 。
从系统论的观点来看 ,多种方案在一个系统中有机结合优势互补 ,可以使整体效果达
到最佳 。例如 :正向最大匹配和逆向最大匹配相结合的双向最大匹配方法可以检测到交集
型歧义 ,最少匹配和词频统计相结合的最少分词词频选择算法的分词精度比单纯的最大匹
配法提高了 1 —2 个数量级 。
笔者所在的课题组在研制中文自动文摘系统的过程中 , 由于待处理语料多为社会实用
文体 ,其中含有大量的人名 、地名和专业术语等未登录词 , 因而采用了无词典 自动分词算
法 ,根据汉字串在上下文和背景库中出现的频度分别抽取特征词和常用词 。实验表明:无
词典分词算法能够正确地识别含几万词的中型词典中所没有收集的的词语 ,但是由于该算
法不借助词典 ,因而对常用词的切分精度较低 ,并且串频统计的开销过大 ,分词速度很慢 。
为了利用无词典分词结合上下文识别生词 、消除歧义的优点 , 同时保留机械匹配分词
① 本文 1997 年 1 月 6 日收到
17
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
对常用词切分速度快 、精度较高的长处 ,笔者编写了一套面向篇章的汉语 自动分词软件系
统 ,该系统将串频统计分词和词形匹配分词内联于同一系统之中 ,取得了良好的实验结果 。
二 、系统原理及流程
系统原理框图如下 :
系统由三个主要模块构成 :
模块一 :分词预处理 。
( ) (
利用显式切分标记 标点、数字 、西文 、其它非汉字符号 和隐式切分标记 出现频率高 、
)
构词能力差的单字词 将文本切分成汉字短串的序列 。
( )
一 隐式切分标记规则知识库
隐式切分标记是客观存在的 ,例如 ,“的”字 ,在语料中平均每 25 个字次就出现一次 ,而
“的”字的构词能力并不强 ,仅能组成“的确”、“有的”等极少量的词语 ,所以它是一个非常好
的切分标记 。将总结出来的切分标记和及其构词表组成一个规则知识库 ,示例如下 :
的 L R 有 放矢 无 放矢
L 别 似 是 有 目 一语破
R 确 话 上 #
该示例的含义是 :“的”是一隐式切分标记 。L R 、L 、 R 所在行分别代表对于当前文
本“的”字周围环境的三种判断 :L R
文档评论(0)