- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征词的垃圾短信分类器模型.doc
基于特征词的垃圾短信分类器模型 摘要: 针对垃圾短信分类问题,提出一种计算词分类权重的方法,并以此为基础通过降维来得到分类特征词集合。提出了短信分类隶属度概念,通过计算短信分类隶属度和分类隶属度密度的方法来实现分类。为了提高分类的准确性,还对特征词进行了分类权重的迭代学习,从而保证了词分类权重取值的合理性。实验结果表明,该分类模型具有良好的分类效果和较低的时间复杂度。 关键词: 垃圾短信;特征词;文本分类;降维;权重学习 0引言 短信作为一种重要的交流手段,在人们的日常生活中正发挥越来越重要的作用。伴随着短信的广泛使用,垃圾短信也严重困扰着人们的生活。因此研究高效实用的垃圾短信分类方法很有必要。 垃圾短信通常包含广告、诈骗、色情、诅咒等内容,具有较为显著的特征。对垃圾短信分类问题的研究是垃圾短信过滤的必要基础。国内外在研究垃圾短信分类问题时,主要有两种方法:①以文本向量空间模型为基础的方法,如支持向量机[1-7];②以贝叶斯算法为核心的分类方法[7-17]。方法①将每个词定义为文本空间的一个维度,待分类文档转化为文本空间的一个向量,向量每个维度的值表示为对应词在文档中的权重,该权重的计算通常通过TFIDF[18]来计算,然后通过比较文本距离的方式来确定文档分类;方法②主要以词频为基础,计算分类后验概率来对短信分类。采用上述两种方法对短信进行分类时,存在以下问题:1)采用方法①计算词在短信中的权重时,由于短信内容长度短,词重复现象几乎不会发生,因此内频TF总是为1;2)在方法①中将短信表示为向量时,仅少量维度值不为0,特征缺少现象严重,导致计算距离时难以有效区分;3)通过观察实验样本,发现低频词在分类过程中所起作用呈两极分化趋势,如词“专业培训”仅仅出现了2次,在分类过程中的作用较大,而词“演出”出现了4次,但在分类过程中作用较小,方法②难以处理该情况;4)方法②假定词之间是相互独立的,该假定会带来分类误差。雷杨[19]将stacking集成学习算法用于垃圾短信分类,取得了不错的效果;刘金岭[20]提出了一种以词共现为基础,通过推断短信上下文的方法来实现短信分类。 考虑广告促销类短信“为您量身定制专属设计方案!现场签约客户更有多重好礼等着您!详询:150XXXX823小王诚邀您的光临!”,在将该短信判定为广告促销类时,词“量身定制”、“专属”、“签约”、“客户”、“好礼”、“诚邀”、“光临”起了重要的作用,而词“设计”、“方案”、“有”起的作用较小。观察分类样本,可以发现,存在着词集合在将短信分到某一类别时发挥了重要作用,将这样的词集合称为该分类的特征词集合。 4结语 本文所提出的算法考虑了词在不同分类中的权重差别,并认为每一类垃圾短信存在一个特征词集合,在此基础上实现了垃圾短信分类算法。实验结果表明,该方法在准确度和时间复杂度都达到了较好的效果。但是由于实验样本中没有足够的正常短信样本,可能会导致正常短信误分率较高,因此结合行为进行分类可能会提高算法的精确度和实用性,如考虑一个时间间隔中从某一个号码发出多条短信被认为是疑似垃圾短信,然后采用本研究的算法进行二次分类。另外,考虑词语语义相似度对分类权重的影响是下一步要研究的目标。 参考文献: [1] SALTON G, WANG A, YANG C S. A vector space model for automatic indexing [J]. Communication of the ACM, 1975, 18(5):613-620. [2] LEWIS D D. Feature selection and feature extraction for text categorization [C]// Proceedings of the Workshop on Speech and Natural Language.New York: Association for Computational Linguistics,1992:212-217. [3] 李慧,叶鸿,潘学瑞,等.基于SVM的垃圾短信过滤系统[J].计算机安全,2012,13(6):34-38. [4] 冯鸥鹏.垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D].北京:北京邮电大学,2011. [5] 徐易.基于短文本的分类算法研究[D].上海:上海交通大学,2010. [6] LAN M, TAN C L, SU J, et al. Supervised and traditional term weighting methods for automatic text categorization [J]. IEEE Transactions on Pattern Analysis and Mach
文档评论(0)