汉语自动分词技术的最新发展及其在信息检索中的应用.pdfVIP

汉语自动分词技术的最新发展及其在信息检索中的应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
维普资讯 汉语自动分词技术的最新发展及其在信息检索中的应用 岳 涛 (中软网络技术股份有限公司 北京 100081) 摘 要 分析 了汉语 自动分词与 自然语言处理 、自动分词与信息检索之间的关系,在此基础上 ,介绍 了近年来 自动分 词系统实现 的技术,分析 了自动分词技术在信息检索中应用的有关问题。 关键词 汉语 自动分词 信 息检索 自然语言处理 进人 21世纪以来,随着 国际互联网在我 国的日益普及和 际的词串即在书面汉语中建立词的边界,这就是汉语 自动分词 发展 ,社会网络化和信息化程度 日益提高,互联网上的中文信 的任务。我们可以将现有的分词算法分为三大类:基于字符串 息量正以几何级的速度上升。人们迫切需要一种比以往更加 匹配的分词方法 、基于理解的分词方法和基于统计的分词方 有效的检索手段来实现信息的查找与获取。如何从互联网上 法 。 的海量数据中快速、准确地搜索到人们需要的资料和信息就成 1,1 基于字符 串匹配的分词方法 这种方法又叫作机械分 为信息检索的任务。目前,信息检索系统的效果仍然是差强人 词方法,它是按照一定的策略将待分析的汉字串与一个 “充分 意。这主要体现在相关性信息太多 ,无法以几个关键词的组合 大的”机器词典中的词条进行匹配。若在词典中找到某个字符 表示查询者的真实意 图,检索效果难 以进一步提高。因此 ,为 串,则匹配成功 (识别出一个词)。按照扫描方向的不同,字符 提高检索质量和检索精度,把 自然语言理解研究的最新成果引 串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度 人到信息检索系统就成为研究人员逐渐关注的焦点。 优先匹配的情况 ,可以分为最大 (最长)匹配和最小 (最短)匹 自然语言处理是人工智能领域的一个重要分支,主要研究 配;按照是否与词性标注过程相结合 ,又可以分为单纯分词方 如何利用计算机来理解和生成 自然语言。它广泛应用于智能 法和分词与标注相结合的一体化方法。常用的几种机械分词 计算机、机器人语音对话 、电话翻译系统 、大型数据库 自然语言 方法有正向最大匹配 、逆向最大匹配、最少切分(使每一句 中切 查询、自动文摘 、自动分类、自动标引、信息检索、机器翻译等领 出的词数最小)。 域。自然语言处理过程主要包括词法分析、句法分析以及语义 还可以将上述各种方法相互组合。例如,可以将正向最大 和语用分析。词法分析主要指从接受输人串开始到对输人串 匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由 进行句法层面的分析之前 ,对输人串所进行的词一级的处理。 于汉语单字成词的特点 ,正向最小匹配和逆向最小匹配一般很 不像英语、德语等曲折型语言,汉语属于分析型语言,汉语中的 少使用。一般说来 ,逆 向匹配的切分精度略高于正向匹配,遇 词基本上没有形态变化 ,一个汉语句子 由一串前后连续的汉字 到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配 组成 ,词与词之间没有明显的分界标志。因此 ,汉语词法的主 的错误率为1/169,单纯使用逆向最大匹配的错误率为 1/245 要任务不是分析单词的形态变化 ,而是进行单词的 自动切分。 (这可能是因为汉语的中心语靠后的特点)。但这种精度还远 汉语 自动分词就成为包括信息检索等 自然语言处理的不可逾 远不能满足实际的需要。 越的阶段。 由于分词是一个智能决策过程,机械分词方法无法解决分 近十年来,自动分词技术取得的成果是可观的。本文 旨在 词阶段的两大基本问题 :歧义切分问题和未登录词识别 问题。 基于对 自动分词技术的介绍,分析它是如何应用于信息检索中 实际使用的分词系统都是把机械分词作为一种初分手段,还需 以及需要解决的关键问题 。 通过利用其它的语言信息来进一步提高切分的准确率。一种

文档评论(0)

精品天地 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档