分词技术研究报告.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
分词技术研究报告 研究内容 目前,国内的每个行业、领域都在飞速发展,这中间产生了大量 的中文信息资源, 为了能够及时准确的获取最新的信息, 中文搜索引 擎是必然的产物。 中文搜索引擎与西文搜索引擎在实现的机制和原理 上大致雷同, 但由于汉语本身的特点, 必须引入对于中文语言的处理 技术,而汉语自动分词技术就是其中很关键的部分。 汉语自动分词到 底对搜索引擎有多大影响?对于搜索引擎来说, 最重要的并不是找到 所有结果, 最重要的是把最相关的结果排在最前面, 这也称为相关度 排序。 中文分词的准确与否, 常常直接影响到对搜索结果的相关度排 序。分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即 使准确性再高, 对于搜索引擎来说也是不可用的, 因为搜索引擎需要 处理数以亿计的网页, 如果分词耗用的时间过长, 会严重影响搜索引 擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度, 二者都需要达到很高的要求。 研究汉语自动分词算法,对中文搜索引擎的发展具有至关重要的 意义。快速准确的汉语自动分词是高效中文搜索引擎的必要前提。 本 课题研究中文搜索引擎中汉语自动分词系统的设计与实现, 从目前中 文搜索引擎的发展现状出发,引出中文搜索引擎的关键技术 汉语自动分词系统的设计。 首先研究和比较了几种典型的汉语自动分 词词典机制, 指出各词典机制的优缺点, 然后分析和比较了几种主要 的汉语自动分词方法, 阐述了各种分词方法的技术特点。 针对课题的 具体应用领域, 提出改进词典的数据结构, 根据汉语中二字词较多的 特点,通过快速判断二字词来优化速度; 分析中文搜索引擎下歧义处 理和未登陆词处理的技术, 提出了适合本课题的自动分词算法, 并给 出该系统的具体实现。 最后对系统从分词速度和分词准确性方面进行 了性能评价。本课题的研究将促进中文搜索引擎和汉语自动分词新的 发展。 二、汉语自动分词系统的研究现状 1 、几个早期的自动分词系统 自 80 年代初中文信息处理领域提出了自动分词以来, 一些实用性 的分词系统逐步得以开发, 其中几个比较有代表性的自动分词系统在 当时产生了较大的影响。 CDWS 分词系统是我国第一个实用的自动分词系统,由北京航空航 天大学计算机系于1983年设计实现, 它采用的自动分词方法为最 大匹配法,辅助以词尾字构词纠错技术。其分词速度为 5-10 字/ 秒, 切分精度约为 1/625 。 ABWS 是山西大学计算机系研制的自动分词系统,系统使用“两次 扫描联想 - 回溯”方法,运用了较多的词法、句法等知识。其切分正 确率为 98.6%(不包括非常用、未登录的专用名词 ) ,运行速度为 48 词/ 分钟。 CASS 是北京航空航天大学于 1 988年实现的分词系统。它使用 正向增字最大匹配, 运用知识库来处理歧义字段。 其机械分词速度为 200 字/ 秒以上,知识库分词速度 1

文档评论(0)

Lxq3610 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档