- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多维分析应用中的模糊查询算法研究
摘要:本文利用C#实现了一种改进的Edit Distance算法,并嵌入到基于SQL Server Reporting Services开发的多维报表展现平台中,实现了多维数据集的模糊查询。多个系统的实际运行表明,将模糊查询算法与多维数据库应用结合,提高了系统的是实用性,改进了用户体验。
关键词:多维数据库;模糊查询;Edit Distance算法
中图分类号:TP311.131文献标识码:A文章编号:1007-9599 (2010) 14-0000-02
The Fuzzy Query Algorithm Study on Multi-dimensional Analysis Application
Jing Rui
(Local Taxation Bureau of Jilin,Changchun130000,China)
Abstract:An improved Edit Distance algorithm has completed in C# in this paper,and embed into multidimensional reports application on SQLServer ReportingServices.Achieved the fuzzy query function for multidimensional database applications.Number of actual operation application shows that the combination of fuzzy query algorithm with multidimensional dabases is one of the effective ways to improves the practical and the user experience.
Keywords:Cube;fuzzy query;Edit Distance algorithm
在多维数据库中,维度是多维数据集的基本组件。多维数据集逻辑上就是维度成员在空间上构成的超立方体,数据的度量值就存储在这些维度成员的交叉点上。由于数据的度量值事先按着维度的交叉关系聚集,与传统的关系数据库系统相比,多维数据库在查询数度、并发响应能力方面有明显的优势,人们可以通过多维视图来观察、分析和展现数据。
在现有的多维数据库系统中,维度成员及其层次结构是建立在离散化的、完全划分的基础之上的,维度成员彼此分立,并且按着成员属性构建了结构稳定的层次结构。目前成熟的多维数据查询技术只能支持精确维度成员选择。而实际应用,经常会遇到模糊的、不完全的查询条件问题。例如,在基于多维数据库的税收分析系统中,由于业务的特殊性,“一户式分析”是系统被广泛使用功能。而纳税人的基本信息具有非常大的不规则性,并且数量巨大,通过“模糊查询”的方式筛选关注对象,成为基本的用户体验需求。针对这一实际问题,本文利用成熟的Edit Distance算法与ReportingService服务,提出一个多维数据模糊查询机制,并给出实现方法。
一、Edit Distance算法思想
字符串模糊搜索(fuzzy string searching)(通常也成为字符串近似匹配approximate string matching)是一种在一个字符串中查找近似的匹配模板的技术。
1965年俄国科学家Vladimir Levenshtein首先提出了一种算法用于计算计算从原串(s)转换到目标串(t)所需要的最少的插入,删除和替换的数目,这种数据被称为编辑距离(Edit Distance)也叫Levenshtein distance(LD)。基于Edit Distance开发的模糊搜索算法,在计算机技术领域得到广泛应用,除了直接用于数据库查询应用以外,还可应用于自然语言理解、拼写检查、欺诈检测,乃至核苷酸的序列匹配等。
算法的核心思想是利用从源字符串转换成目标字符串所必须的基本操作次数了测量使用字符串的接近程度。通常的基本操作为:
插入:tst→test
删除:test→tst
替换:tent→test
增加一个NULL(这里使用λ)字符后,这三种操作被转换成一种通用的替换模式:
插入:tsλt→test
删除:tλst→tst
替换:tent→test
从上面的介绍中我们可以看到,字符串模糊查找的问题可以转化成两个字符串编辑距离的计算。
两个字符串x和y之间的距离d(x,y)就是从x转换成y所进行的一系列操作的代价。这一系
原创力文档


文档评论(0)