- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于n-gram中英文字符串分割算法实现
基于n-gram中英文字符串分割算法实现摘要:相似字符串的模糊查询是信息检索的重要组成部分,一直是人们研究的热点。目前基于关键词的查询技术都是前缀匹配,无法查找到与搜索字符串相似的结果。该文提出一种基于n-gram的中英文字符串分割技术的算法,该技术主要是对字符串进行中英文识别,然后基于n-gram按照指定长度进行分割,该技术是实现基于关键词的模糊查询技术的基础。该技术在数据清洗以及学位论文TMLC系统和垃圾邮件过滤等方面也有重要的应用前景。
关键词:模糊查询; n-gram;字符串分割;编辑距离;数据挖掘
中图分类号:TP391文献标识码:A文章编号:1009-3044(2012)23-5530-04
Implementation of Algorithm Based on n-gram Chinese-English String Segmentation
HE Xiao-ming,HONG Qin,CAI Jian-yong,LIN Hong
(College of Photonic and Electronic Engineering of Fujian Normal University Cangshan Campus, Fuzhou 350007, China)
Abstract: Similar string of fuzzy query is an important part of the information retrieval, has been the hotspot of the research. The keyword search technology is the prefix matching, unable to find similar results with the search string. This paper presents a n-gram based in the Chi? nese-English string segmentation algorithm, the technique is mainly to string recognition based on n-gram in Chinese-English, then in ac? cordance with the specified length of segmentation, the technique is realized based on keywords fuzzy query technology based. The tech? nology in data cleaning and dissertations TMLC system and spam filtering has important application prospect.
Key words: fuzzy query; n-gram; string segmentation; edit distance; data mining
自从改革开放以来,中国与世界各国的联系一步一步地加强。这种不断加强的联系表现在信息的表达形式上是凸显的。在日常生活查找信息时,我们很容易看到一些中英文混合使用的表达方式。比如:中国各省人均GDP,windows操作系统,3G手机,3D电影,做CT,ICU病房等。面对这样一个新形势的信息爆炸时代,如何从互联网的海量信息中快速准确地找到我们所需的信息成为一个难题[1]。
在信息爆炸时代里,搜索引擎已经成为千千万万网民上网的必备工具。但是随着信息量的不断增长,人们在在进行查询的时候,有可能输入错误的信息(比如错误的字母,错误的数字,错误的同音汉字)。在这些一种情况下,用户可能就无法得到想要的查询结果。尽管目前已经有些搜索引擎中加入了“您是否要找***”等类似的功能[2],但这依然无法快速准确的满足用户的查询要求。
因此,如何从海量的中英文数据中查找出与查询字符串相类似的查询结果,是该文努力研究的方向。目前,已经有人提出了基于n-gram的字符串分割的算法实现[3]。该算法只针对英文字符串,能解决在英文信息检索中基于关键词的查询技术前缀精确匹配问题[4],也就是检索结果是“错误的输入,错误的输出”,还能解决用户因记忆模糊或误输入单词中的个别字母,甚至在数据库中可能存在某些不正确的数据即“脏数据”的这些情况下可能无法得到用户所期待的查询结果[5]。已有的算法针对的是英文数据,对中英文这样的数据束手无策。为此,该文提出一种改进的解决方法,首先对关键词进行中英文识别,然后根据指定长度对字符串进行分割。综上所述,该文对基于关键词的传统查询方法和基
原创力文档


文档评论(0)