武汉理工信息检索论文.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
武汉理工信息检索论文

摘要:中文信息处理在信息处理中占有非常重要的位置,其 在机器翻译、信息检索、人机对话等各个领域发挥着非常积极的作用。中文分词是中文信息中最基本、最重要的一项研究课题。本文总结目前常用中文分词发展现状,主要算法、面临难点。关键词:中文分词 分词算法中文分词是中文信息中最基本、最重要的一项研究课题,是对中文信息进行处理的第一步。它是指将组成句子的汉字序列用分隔符加以区分,切分成一个个单独的词。由于中文本身复杂性及语言规则的不确定性,给中文分词带来了很大困难。而信息检索的相关技术研究也迫切需要分词技术的实现,同时分词技术的应用范围已经开始延伸到各个行业,例如机器翻译、信息检索、搜索引擎与中文输入法、问题答疑和文本挖掘等等。由此对中文分词算法的理论研究和对应用相关研究都是很重要的。国内外发展现状目前国际上比较通用的语言还是英语等其它语言,对于汉语的相关自然语言研究并不是很多。国外主要有微软开发的NLPwin中文分词系统。它扩展了北大的词典,在对上下文本有较好理解的前提下能够比较好的处理歧义切分问题。还有mmseg4j 分词器,基于最大匹配算法的前提下,通过规则过滤来提高切分的成功率,它主要应用于自然语言理解、信息查询、语音处理等领域,分词的结果比较理想。 国内,中文信息领域中有人提出可以用机器自动分词后,便开始出现了一些较为实用的分词方案。如由北京航空航天大学采用的是查询词典的方式设计并实现的CDWS分词系统;张永奎等人研究使用最大匹配算法实现了中文自动分词系(NEWS);北京航空航天大学自主研发并使用ASM算法实现的CASS系统(中文自动分词系统);由哈尔滨工业大学车万翔博士带队研发出的Ltp语言技术平台;还有基于Apache Lucene的基础上改进研发出的IKAnalyzer分词器。伴随着中文分词的相关使用领域越来越多,更多对这个领域感兴趣的人开始更为深入的方案研究和实现。例如SEG和SEGTAG分词方案试图用有向图的方法来对信息进行整合、哈尔滨工业大学实现的基于统计的中文分词方案使用了上下文本的信息来进行未登录词发现,最后用统计模型来匹配找出未登录词、复旦大学实现的分词方案处理歧义切分、北京大学实现分词方案以词性标注作为切入点,在分词时使用词性标注进行校验、杭大实现的改进MM分词方案以词典的组织结构作为切入点,选择了统计的算法来识别大部分的未登录词、中国科学院提出的一种以词法分析作为切入点,选择基于统计的N-最短路径策略进行处理等等。中文分词算法在过去的三十多年里经过学者们的研究和探索,中文分词已取得了长足的进步,准确度获得了提升。目前主要的中文分词算法有:基于字符串匹配(机械)的分词方法字符串匹配法又叫机械分词法。这种中文分词方案它需要有一个词典,我们认为这个词典能够包含我们所需要的所有的词,然后基于这个词典,把没有切分的文本按某种规则取一部分和词典中的词逐一进行比较,查询成功则识别出这个词,失败则再重新选取待查询的部分。这样循环匹配下去最终达到切分原文本的效果。想要提高基于字符串匹配的分词方法的准确率,必须保证词典的“大”、“全”、“准”,这也正是机械分词法的瓶颈所在。在这种方法中,按照匹配字符串方向的不同,可以分为正向最大匹配算法(FMM)和逆向最大匹配算法(RMM)、双向最大匹配算法,按照所优先匹配的长度的不同,又可以分为最长匹配和最短匹配两种,如果按照其在匹配过程中是增加字符还是减少字符的方式分类,还可以分为增字分词法和减字分词法。基于理解的分词方法这种方法通过汉语中的组织习惯和思维方式的相关知识来进行分词的,同时会简历汉语分词的数据信息库。通过汉语语言组织原则和使用习惯等去判别出现歧义时的切分结果。目前主要使用的方法主要有:1、专家系统分词的方法,它是按照语言学家的角度来建立分词所需的知识库。这个知识库与切词的实现相互独立,可以在完善知识库的同时不影响切词过程。这种方法的切词的过程就是利用知识库推理句子的语法树的过程。但是需要大量的关于中文的信息,机器梳理信息时消耗大量的资源,算法复杂度非常高。2、基于神经网络的分词算法。这是一种非线性的方法,采用分布式的并行处理方法来计算模型,利用自学习来完善模型,最后达到正确分词的效果。但是它需要非常长的训练时间,并且不能对自己的推理模型作出相应的解释,对新词的识别结果也很一般。 基于统计的分词方法基于统计的分词方法是利用概率学来解决语言问题的一种方法,依据人的直观感觉,语料中任意两个字出现在一起的次数越多,说明它们之间的关系越密切,那么它们组成词的可能性就越大。由字构词的思想是现在的主流思想。这种类型的分词法通过统计语料中的相邻出现的字的组合的频度,计算各种他们之间的互信息,利用各种统计模型来计算字组成词的概率,当概率高于某个阂值时,就认为组成了一个词,因为一个字符串会有多

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档