- 3
- 0
- 约1.47万字
- 约 6页
- 2017-10-09 发布于北京
- 举报
第 47卷第 5期 华 中师范大学学报 (自然科学版) Vo1.47 NO.5
2013年 1O月 J0URNAL 0FHUAZHoNG N0RMALUNIVERSITY(Nat.Sci.) 0ct.2O13
文章编号 :1000—1190(2013)05—0626—06
云计算在手机短信分类中的应用研究
王 红 ¨,张燕平。,陈功平
(1.六安职业技术学院信息工程系,安徽 六安 237158;2.安徽大学 计算机科学与技术学院,合肥 230039)
摘 要 :云计算技术的应用领域之一就是信息安全 ,采用 kNN分类算法 ,在基于云计算 的环境下,
采用 HBase数据存储方式存储 比对库短信、待测短信和短信特征集,使用MapReduce技术解决短
信预处理和分类阶段的各项任务.在有 5台PC机的计算机集群环境下 ,采用改进 的 条短信选取
规则和分类计算规则下,使得单位 时间内分类短信 的数量 比提 高到 4,短信识 别率最 高达
到 93.5 .
关键词 :短信分类 }云计算 ;HBase技术 ;MapReduce技术
中图分类号 :TN929.53 文献标识码 :A
手机普及率的提高和短信通信费的低廉口],使 别的短信样本 ,先计算待测样本与比对库中”条短
得手机用户经常收到诸如广告、不 良链接 、诈骗等 信的相似度,再根据选取规则从 比对库中挑出k条
形形色色的垃圾短信 ,给生活带来 了诸多不便.垃 相似度最高的短信样本 ,最后根据分类计算规则确
圾短信的治理 已经得到国家和社会的支持 ,并成立 定待测短信的类别.
了各种模型的垃圾短信举报 中心,据 12321调查统 忌NN算法分类短信 的基本步骤如下 :
计 ,2012年下半年用户平均每周收到垃圾短信数 1)从短信集中提取所有特征项集合 (特征集),
量为 1O.7条.本文利用计算机技术 中的文本分类 特征集 中包含特征项名、词频和所属类别信息 ;
算法实现短信分类 ,当前的垃圾短信过滤技术多数 2)将 比对库短信进行预处理 ,并根据特征集将
在客户端实施,由于客户端移动设备处理能力有 短信表示成可计算的样式 ;
限,客户对短信的实时性要求高,如何高效 、快速的 3)将待测短信进行预处理 ,根据特征集将待测
分类短信 ,是课题研究的重点. 短信表示成可计算的样式,并计算其与比对库中
云计算技术_2是近年来发展较快 的计算机综 条短信 的相似度,选出k条并确定其类别.
合技术之一,它将大量的处理任务放在云端 ,降低
2 云计算概述
客户端成本.笔者 已经在单机上使用 kNN算法实
现短信分类 ,使得分类 的最高识别率达到 9O 以 2.1 云计算的定义
上 ,由于kNN算法需进行大量的比较运算 ,在单机 云计算 (CloudComputing)是一种在分布式 、
运行 时,单位时间内的处理速度较慢 ,本文采用 云 并行和网格计算等技术基础上发展而来的新型计
计算技术 ,将短信的分类识别放在云端 ,以提高处 算模式口],自2007年提出概念后 ,各种基于云计算
理速度和减少客户端的运行成本,取得了较好 的效 的产品应运而生.云计算 的定义有广义和狭义之
果 ,当比较库数量为 9000条短信、云端计算机为 5 分 ,笔者综合考量 ,认为所有外部可使用的、透明的
台时,每秒可处理短信数 600条 ,是单机处理 的4 资源和服务均可视为云计算.
倍 ,平均识别率达到85 以上. 2.2 云计算特点
原创力文档

文档评论(0)