一种基于特征值的短信过滤匹配算法.docVIP

下载本文档

21
0
约1.37万字
约 12页
2017-09-22 发布于安徽
举报
版权申诉

一种基于特征值的短信过滤匹配算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于特征值的短信过滤匹配算法# 钱苏林，李炜，王晶** （北京邮电大学网络与交换技术国家重点实验室，北京 100191） 5 10 15 20 25 30 35 摘要：短信营销业务是近年来发展较快的短信业务之一，而随着该项业务的广泛应用，对短信的过滤匹配功能也提出了更高的要求。本文结合短信营销业务的特性，提出了一种高效的短信过滤匹配算法。算法依据短信分片特征值进行短信过滤，采用位向量法、编辑距离算法进行短信匹配，实现了高效的海量短信过滤匹配功能。文中给出了特征值算法的详细步骤，并对算法的有效性和正确性进行了分析对比。关键词：短信；特征值；编辑距离；高效过滤匹配中图分类号：TP311.1 A Short Message Filtering and Matching Algorithm Based On Eigenvalues Qian Sulin, Li Wei, Wang Jing (State Key Lab of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100191) Abstract: SMS marketing is growing at a fast rate in the past few years. As this business is widely used, the requirement for the filtering and matching function of the short message is becoming increasingly higher. Having considering some characteristics of SMS advertising, we present an algorithm for effective text filtering and matching in this article. More specifically, the algorithm is briefly described as followed: firstly, text is filtered based on its eigenvalue and secondly using bit-vector method and Levenshtein Distance algorithm to match two candidate short messages thereby realizing the efficiency of mass short message filtering and matching function. This paper describes the details on calculation of text eigenvalue and presents the analysis on the effectiveness and correctness of this algorithm. Key words: short message; eigenvalues; Levenshtein Distance; effective match and filter 0 引言短信营销业务是近年来智能网发展较快的业务之一[1]，它为短信的业务量增长提供了一个很好的平台和解决方案。该业务向用户提供订购/点播短信的业务，当用户订购/点播之后成为种子用户，短信营销平台向用户下发种子短信，并由种子用户向其他用户转发。由于种子用户可以从每一次转发行为中获益，所以就必须对每一条短信进行过滤匹配，以确认是否为种子用户的转发短信。在一个普通的短信营销业务应用案例中存在 50 万条种子短信、4 万/秒的短信流量，为了不存在积压，那么必须在一秒内完成 50 万*4 万=200 亿次短信内容的比较。所以，本文的研究重点是如何对海量的相似短信进行高效过滤和匹配，即如何提高字符串相似度的计算效率。在文献[2]-[6]中提出了不同的计算字符串相似度算法，但这些算法都侧重于确定的两个字符串之间的匹配，而且都没有考虑到短信自身的特性，无法在海量的数据下实现高效的短信相似匹配。所以，本文结合短信自身的特性，针对如何提高海量短基金项目：国家自然科学基金（No60902051）；国家 973 计划项目（No.2012CB915802）；中央高校基本科研业务费专项资金（BUPT2009RC0505）；国家科技重大专项（No.2011ZX03002-001