- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
J o ur nal of Inf or m a ti o n No . 2 ,2005
·情报技术 ·
汉语自动分词新思维 :无词典切分
文庭孝 侯经川 邱均平 张 洋
( ) ( ) ( )
湘潭大学管理学院 武汉大学信息管理学院 武汉大学中国科学研究评价中心
摘 要 汉语自动分词与中华民族文化复兴紧密相联 ,但汉语 自动分词又是 目前中文信息处理中的难题 。通过分析
现有汉语词自动分词方法及其局限性 、汉语词自动分词中存在的困难 、汉语同西方语言和 日语的差别 ,认为传统汉语
文本具有不可自动切分性 ,从汉语自动分词的成本 、影响和汉语言发展的前途出发 ,必须对传统汉语文本进行改革 。
提出了一种新的自动分词思维 :“无词典切分”,即改变汉语书写习惯 ,在汉语文本生成时在汉语词之间增加分隔信息 ,
使汉语适于计算机 自动处理 。
关键词 汉语词切分 自动分词 无词典切分 中文信息处理
书面汉语自动分词是 目前中文信息处理中公认的难题 , 这些切分成果的取得 ,无疑是中国学者智慧的高度结晶。
因为汉语词自动切分是 自然语言理解 、机器翻译 、信息检索 、 但是传统汉语文本自动切分是一个黑洞 ,我们已经为此付出
语言文字研究、汉语文本 自动标引等研究领域中最基本的一 了高昂的代价 ,并且它还将无止境地耗费国家大量的财力 、物
个环节 ,也是中文信息自动处理的“瓶颈”。已有的语词切分 力和人力 。因此 ,要实现汉语自动分词这一伟大 目标 ,只能寄
方法一直执着于对传统文本进行有效切分和理解 ,但是由于 希望于在三个方面取得突破性进展 ,即现有分词算法 、计算机
( )
汉语文本自身存在的局限性 即不可分性 ,使得汉语文本 自 和人工智能技术 , 以及汉语言文字研究 。而现在我们都还无
动切分和理解变得极为困难 。 法对任何一方面作出可能的预测 。
1. 2 汉语词自动分词存在的困难 a. 汉语词与词之间不
1 现有的分词方法及其局限性
( )
像西文那样有明显的分隔符 如空格等 ,也不像 日文那样有
(
1. 1 现有的分词方法 目前国内公开报道过的分词系统 丰富的词尾变化 如 日语中的片假名和平假名构成了书面 日
)
采用的分词方法主要有三种类型 :a. 机械分词法 。机械分词 语的词尾变化 。b. 中文原本没有词的概念 ,中文词的概念是
( ) (
法主要有最大匹配法 MM 法 、逆 向最大匹配法 RMM 、 一个泊来品 ,至今也没有统一的词的确切定义 。c. 汉语未有
OMM 、IMM) 、逐词匹配法 、部件词典法 、词频统计法 、设立标 一部公认的、确切完备的并适合于计算机 自动处
文档评论(0)