中文信息检索引擎中的分词与检索技术.docx

下载文档 降价啦

9
0
约7.92千字
约 4页
2018-04-26 发布于江西
举报
版权申诉
保障服务

中文信息检索引擎中的分词与检索技术.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文信息检索引擎中的分词与检索技术

第24卷第7期2004年7月计算机应用ComputerApplicationsVol.24,No.7July,2004文章编号:1001-9081(2004)07-0128-04中文信息检索引擎中的分词与检索技术吴栋,滕育平(南开大学组合数学研究中心核心数学与组合数学教育部重点实验室,天津300071)(tengyuping@)要:文中论述了在开发中文信息检索系统中所涉及到的两项关键技术,即中文分词技术和摘检索技术。针对中文分词技术,介绍了一种改进的正向最大匹配切分算法,以及为消除歧义引入的校正策略,并在此基础上结合统计方法处理未登录词。针对检索技术,综述了几种最常用的检索模型的原理,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试,测试结果表明该分词算法准确度和效率能够满足实用的要求。关键词:信息检索;搜索引擎;分词技术;检索技术中图分类号:TP317.2文献标识码:AWordSegmentandSearchTechniquesforChineseInformationSearchEnginesWUDong,TENGYu2ping(LaboratoryofPureMathematicsandCombinatorics,CenterforCombinatorics,NankaiUniversity,Tianjin300071,China)Abstract:TwokeytechniquesinthedevelopmentofChineseInformationRetrievalSystemarediscussedinthispaper,i.e.,Chinesewordsegmentationandsearchtechnique.ForChinesewordsegmentation,thepaperpresentsanimprovedMMsegmentationalgorithm,therevisestrategyfordisambiguation,andthestatisticmethodforunknownwordsrecognitionbasedonthepreviousmethods.Forsearchtechnique,thepapersummarizestheprincipleofseveralkindsofsearchmodels,andanalyzestheadvantagesanddisadvantagesofeachmodelsimply.Atlast,thegivensegmentationalgorithmisevaluated,andtheresultsrevealthattheveracityandefficiencyofthealgorithmcansatisfytheappliedrequest.Keywords:informationretrieval;searchengine;wordsegmentation;searchtechnique目的,人们开发出了众多的检索引擎,有针对Web进行搜索的Google、百度等,也有针对各行业开发的专题检索系统。目前,国内的每个行业、领域都在飞速发展,这中间产生了大量的中文信息资源,为了能够及时准确的获取最新的信息,中文检索引擎是必然的产物。中文检索引擎与西文检索引擎在实现的0引言随着社会的不断进步,特别是在互联网迅猛发展的今天,人们在不断地接触形形色色的信息,同时也要对这些信息进行过滤,从而提取出对自己真正有用的内容。为了达到这个图1中文信息处理和检索过程收稿日期:2003-12-02;修订日期:2004-06-12作者简介:吴栋(1980-),男,上海人,博士研究生,主要研究方向:组合数学;滕育平(1980-),男,湖北孝感人,硕士研究生,主要研究方向:组合数学、计算机软件.2)逆向最大匹配法(ReverseMaximumMatcingMethod)通常简称为RMM法。RMM法的基本原理与MM法相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,RMM法在切分的准确率上比MM法有很大提高。3)基于词频的统计方法统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。2.3一种改进的MM算法MM法和RMM法的缺点在于对词典的完全性有很强的依赖性,而且无法很好的解决歧义问题,有人提出了双向匹配法,即针对一个字符串,分别从两个方向进行处理,但这种方法只有检错功能,却不能自动进