- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于决策树和内容识别短信过滤方法研究
基于决策树和内容识别短信过滤方法研究
摘 要:随着移动通讯的快速发展,手机短信已经成为了人们日常生活中重要的信息传递方式之一。但是,随之而来的问题是大量的垃圾短信肆意泛滥,人们因为垃圾短信而造成的经济损失的事件也屡见不鲜,这已经严重影响了社会的正常秩序。因此,如何有效识别过滤垃圾短信,遏制其传播,已经成为了迫在眉睫的实际问题。本文将根据短信拦截的需求和短信的特性,在有限的资源条件下,运用决策树预测模型,设计并实现一个基于手机联网的短信应用,其主要功能包括收发短信、黑白名单拦截和基于内容识别实现的垃圾短信识别过滤。
关键词:垃圾短信;过滤;拦截;内容识别;决策树
基金项目:西南科技大学大学生创新基金项目资助 编号:CX15-024引言
移动通讯的高速发展,使得手机短信成为人民生活不可或缺的一部分,但大量的涉黄、违法、反社会的垃圾短信严重打扰了人们的正常生活和工作,同时也浪费了运营商的通讯资源和网络资源。
垃圾短信是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息。其主要包含以下属性:(一)未经用户同意向用户发送的商业类、广告类等短信息;(二)其他违反行业自律性规范的短信息。依据《中华人民共和国电信条例》第五十六条规定的九种任何组织或者个人不得利用电信网络制作、复制、发布、传播含有下列内容的信息,均可视为垃圾短信。[1]
腾讯移动安全实验室的数据统计:“2015年上半年,腾讯手机管家用户举报垃圾短信达3.08亿,同比增长12.36%。如果将用户举报的垃圾短信用五号字串起来,长度可以从北京到广州往返29次。垃圾短信类别主要分为广告类、诈骗类、违法类与其他类4大类。2015年上半年,广告类垃圾短信占垃圾短信总比例达84.04%,诈骗短信占比11.98%,违法类占比1.92%,其他类占比2.06%。在垃圾短信当中,对用户危害最大的是诈骗短信。2015年上半年用户举报诈骗短信3692万,占垃圾短信举报总比的11.98%,诈骗短信依然在持续增长”。[2]
由这份安全报告可以看出,现在垃圾短信的问题越来越严重,已经给人们的正常工作和生活造成了巨大的干扰。
针对垃圾短信,通讯运营商传统的拦截策略有控制发送频率、关键词屏蔽、手机实名制等。在手机应用端拦截垃圾短信,主要是在短信应用里内置识别拦截垃圾短信的功能,其包含的主要识别分类方法有:黑名单、白名单、关键词检测和基于短信内容的检测等。通过手机端主动屏蔽带有欺诈性质的短信,一方面可以分担运营商的压力,另一方面也让使用手机的客户群最大程度免受垃圾信息的骚扰。
本文将结合内容识别和文本分类算法,设计并实现在手机端快速有效地拦截垃圾短信的一款手机软件,该软件可以有效屏蔽和过滤垃圾短信,改善用户体验,防止用户经济受损。
现有识别过滤手段分析
运营商的拦截手段:[3]
1)控制发送频率:拦截发送短信频率很高的不正常号码。根据工业和信息化部提供的最低标准:“非节假日每个号码可以发送的短信条数每小时不得超过200条,每天总量不超过1000条;而在节假日期间,每小时不超过500条,每天总量不超过2000条”。
2)关键词屏蔽:运营商可以通过检测短信内容来实现点对点垃圾短信的拦截,尽管这种做法缺乏行业的统一标准,但是这是最常用的过滤方式。
3)手机实名制:手机号码捆绑身份证,运营商和公安部门合作,快速且精确打击垃圾短信的源头。
对于运营商这些拦截手段,垃圾短信传播的方式也有相当的变化:大量购买SIM低频发送、复制卡发送、使用特殊表达方式(同音字、异型字、近体字、多音字),敏感内容用特殊字符分隔开等,导致手段1和手段2的效果并不理想;手段3确实是可行的方案,但是在偏僻的地方,由于运营商监管不足,仍存在出售黑卡的现象,因此垃圾短信并不能被杜绝和消灭。
手机应用软件拦截手段:[4]
1)设置黑名单和白名单:在服务器端或手机端建立数据库存储手机号码和被标注的状态。若短信号码是黑名单的号码,直接拦截;若短信号码是白名单号码,直接放过。这种方式明显要比运营商的号码拦截更具有针对性。
2)关键词的检测:方法与运营商的关键词的检测大致相同,不过由于需要处理的短信数量比运营商的要少,而且和现在手机的性能有很大的提升,所以识别效率更高,漏判率更低,对垃圾短信的针对性更强。
3)基于短信内容的检测: 目前常用的文本分类算法有朴素贝叶斯(NativeBayes),贝叶斯网络(BayesNet),决策树(C45或者CART),随机森林(RandomForest),神经网络(BP),支持向量机(SVM)等等。优点:准确率高,模型易维护;缺点:成本开销相对大,需要大量计算和预处理训练集。[
您可能关注的文档
- 基于造型视觉回归.doc
- 基于道德体验民俗德育价值探析.doc
- 基于遇见古诗教学.doc
- 基于道德个人主义之上人文关怀.doc
- 基于道德经济价值重塑.doc
- 基于邻域结构洞社团发现算法.doc
- 基于邻里中心公共服务设施专项规划研究.doc
- 基于部编本语文教材一年级上册探讨提前识字教学方略.doc
- 基于酸几组概念化学教学探讨.doc
- 基于释题提升学生问题解决素养实践策略.doc
- 2026年宿州职业技术学院单招职业技能考试题库附答案.docx
- 2026年宿州学院单招(计算机)考试参考题库必考题.docx
- 2026年宿州职业技术学院单招职业技能考试题库附答案.docx
- 2026年宿迁职业技术学院单招(计算机)考试备考题库附答案.docx
- 2026年宿州学院单招(计算机)测试模拟题库推荐.docx
- 2026年宿迁泽达职业技术学院单招(计算机)测试模拟题库附答案.docx
- 2026年宣化科技职业学院单招(计算机)考试参考题库必考题.docx
- 2026年宣化科技职业学院单招(计算机)考试参考题库推荐.docx
- 2026年宝鸡中北职业学院单招(计算机)测试模拟题库推荐.docx
- 2026年宣化科技职业学院单招(计算机)考试参考题库最新.docx
最近下载
- 如何获取乳内动脉教案.ppt VIP
- Unit5 Fun Clubs Section A Grammar Focus课件 人教版(2024)七年级英语上册.pptx VIP
- 【宏观专题】黄金的“非寻常”定价-240531.pdf VIP
- 海外业务培训.pptx VIP
- 住建部GB 55038-2025《住宅项目规范》核心要点解读.pptx VIP
- 项目在招标、评标、定标过程中存在倾向性和不公平性的质疑函.doc
- IND231校秤过程与检修.pdf
- SJ-20527A-2003 微波组件总规范.pdf VIP
- 培训课件--妊娠剧吐查房.ppt VIP
- GJ B 8481-2015 微波组件通用规范.pdf VIP
原创力文档


文档评论(0)