云计算在手机短信分类中的应用研究.pdfVIP

  • 3
  • 0
  • 约1.47万字
  • 约 6页
  • 2017-10-09 发布于北京
  • 举报

云计算在手机短信分类中的应用研究.pdf

第 47卷第 5期 华 中师范大学学报 (自然科学版) Vo1.47 NO.5 2013年 1O月 J0URNAL 0FHUAZHoNG N0RMALUNIVERSITY(Nat.Sci.) 0ct.2O13 文章编号 :1000—1190(2013)05—0626—06 云计算在手机短信分类中的应用研究 王 红 ¨,张燕平。,陈功平 (1.六安职业技术学院信息工程系,安徽 六安 237158;2.安徽大学 计算机科学与技术学院,合肥 230039) 摘 要 :云计算技术的应用领域之一就是信息安全 ,采用 kNN分类算法 ,在基于云计算 的环境下, 采用 HBase数据存储方式存储 比对库短信、待测短信和短信特征集,使用MapReduce技术解决短 信预处理和分类阶段的各项任务.在有 5台PC机的计算机集群环境下 ,采用改进 的 条短信选取 规则和分类计算规则下,使得单位 时间内分类短信 的数量 比提 高到 4,短信识 别率最 高达 到 93.5 . 关键词 :短信分类 }云计算 ;HBase技术 ;MapReduce技术 中图分类号 :TN929.53 文献标识码 :A 手机普及率的提高和短信通信费的低廉口],使 别的短信样本 ,先计算待测样本与比对库中”条短 得手机用户经常收到诸如广告、不 良链接 、诈骗等 信的相似度,再根据选取规则从 比对库中挑出k条 形形色色的垃圾短信 ,给生活带来 了诸多不便.垃 相似度最高的短信样本 ,最后根据分类计算规则确 圾短信的治理 已经得到国家和社会的支持 ,并成立 定待测短信的类别. 了各种模型的垃圾短信举报 中心,据 12321调查统 忌NN算法分类短信 的基本步骤如下 : 计 ,2012年下半年用户平均每周收到垃圾短信数 1)从短信集中提取所有特征项集合 (特征集), 量为 1O.7条.本文利用计算机技术 中的文本分类 特征集 中包含特征项名、词频和所属类别信息 ; 算法实现短信分类 ,当前的垃圾短信过滤技术多数 2)将 比对库短信进行预处理 ,并根据特征集将 在客户端实施,由于客户端移动设备处理能力有 短信表示成可计算的样式 ; 限,客户对短信的实时性要求高,如何高效 、快速的 3)将待测短信进行预处理 ,根据特征集将待测 分类短信 ,是课题研究的重点. 短信表示成可计算的样式,并计算其与比对库中 云计算技术_2是近年来发展较快 的计算机综 条短信 的相似度,选出k条并确定其类别. 合技术之一,它将大量的处理任务放在云端 ,降低 2 云计算概述 客户端成本.笔者 已经在单机上使用 kNN算法实 现短信分类 ,使得分类 的最高识别率达到 9O 以 2.1 云计算的定义 上 ,由于kNN算法需进行大量的比较运算 ,在单机 云计算 (CloudComputing)是一种在分布式 、 运行 时,单位时间内的处理速度较慢 ,本文采用 云 并行和网格计算等技术基础上发展而来的新型计 计算技术 ,将短信的分类识别放在云端 ,以提高处 算模式口],自2007年提出概念后 ,各种基于云计算 理速度和减少客户端的运行成本,取得了较好 的效 的产品应运而生.云计算 的定义有广义和狭义之 果 ,当比较库数量为 9000条短信、云端计算机为 5 分 ,笔者综合考量 ,认为所有外部可使用的、透明的 台时,每秒可处理短信数 600条 ,是单机处理 的4 资源和服务均可视为云计算. 倍 ,平均识别率达到85 以上. 2.2 云计算特点

文档评论(0)

1亿VIP精品文档

相关文档