面向垃圾短信过滤的亚文档集成学习.pdfVIP

  • 4
  • 0
  • 约1.63万字
  • 约 6页
  • 2017-08-13 发布于天津
  • 举报

面向垃圾短信过滤的亚文档集成学习.pdf

面向垃圾短信过滤的亚文档集成学习

! 第 # 卷第 $ 期 郑 州 大 学 学 报 !理 学 版 %’(# )($ ! *+,- 年 # 月 . 7389/!):;/=8/?/ 2@(*+,-! 面向垃圾短信过滤 的亚文档集成学习 刘伍颖 !! 王! 琳 !广东外语 外 贸大学 语言 工程 与计算 实验室! 广东 广州 C,+*+ 摘要 ! 针对 垃圾 短 信 过 滤 问题 $提出 了一种 亚 文 档集 成 学 习方法 /该 方法 采 用 亚 文 档集 成 学 习框 架 将 短 文本 在 线 二 值分 类 问题转 化 成若 干个 子 分类 问题 $并 通 过 线 性 组 合 多 个 子 问 题 的分 类 结 果 得 出 最终 的分 类 预 测 /利 用 基 于 串 频 索 引 的文本 分类 算 法 实 现 了一种 有 效 的弱分类器 /实 验 数 据 表明 亚 文 档集 成 学 习框 架能 够 提高 现 有 文 本 分 类 算 法 的效 能 $而在亚 文 档集 成 学 习框 架 下 $基于 串频 索 引 的弱分类器 过 滤效 果 最 佳 / 关键词 ! 垃圾 短 信 过 滤 亚 文 档集 成 学 习 串频 索 引 KgY评 测 中图分类号 !KT$#,(,!!!!! 文献标志码 ! N!!!!! 文章编号 ! ,A-,BAD, !*+,- +$B++C#B+A )*! ,+(,$-+C OP/8JJ3/,A-,BAD,(*+,A$+A +, 引言 垃圾短信 !_ J@:E是 指在移 动通信 网络 中不 请 自来 %不 加选择 %大批 量发 送 的长度在 ,+ 字 节 以 内 的文本 文档 /自 *++D 年 开始 $国内 ,*$*, 网络不 良与垃圾信 息举 报受 理 中心 每年发布两 次 2 手机短信 息状 况 调查 报告 3 /报告 中的每周 垃圾 短信率和 每周 垃圾 短信 数 是 两项 非常关 键 的指标 /每周 垃圾 短信率 表示 用 户 平均 每周 收到 的短信 中垃圾短信所 占的百分 比/根据 报 告 中 的这 两 项 指 标数 据 $我 们 绘 制 的 *++A#*+,C 年 垃圾短信 态 势如 图 , 所示 / 图 -, 垃圾短信态势 L%BM-, _ J@:E ;S23? !! 图 , 的态 势显示从 *++##*+,+ 年 每周 垃圾 短 信率从 C+(+o 直 线 下 降到 *,(,+o *+,,#*+,$ 年 每 周 垃圾短信率基本稳定 在 *$(++o/*++A#*+,$ 年 每周 垃圾短信 数 约 为 ,+ $虽 然 各 个 具 体 时段 略有 波 动 $但 整 体趋势 变化不 大 /从 *+, 年 至今用 户平均 每周 收到 的垃圾短信数量 又 略有增 加 /由此可见 $当前 垃圾短 信 形 !! 收稿日期 !*+,AB,+B$+ !! 基金项目 !国家语言 文 字 工 作 委员会重点 项目 !0ZU,$C [*A 广 东 省 高校 特 色创 新 项目 !*+,CeKYp+$C / !! 作者简介 !刘 伍颖 !,#D+# $男 $江西 九 江人 $副 研 究 员 $主 要 从 事 计 算 语 言 学 和 自然 语 言 处 理 研 究 $BE:8’’db’86F 4?6]J/2?6/=3 通 信 作 者 ’王琳 !,#D$# $女 $山东威 海 人 $讲师 $主要从事应 用语言 学研究 $BE:8’’d:34’83F36?;/2?6/=3/ A+ 郑 州 大 学 学 报 ! 理 学 版 第 # 卷 势依 然严 峻 $垃圾短信 占据手机短信半 边 天 的态 势没有 根本 改变 / 尽 管垃圾短信泛 滥 $但 由于 隐私 问 题 $公 开 的短 信 语 料 ( , ) 比较 少 $主 要 有 ’_ J@:

文档评论(0)

1亿VIP精品文档

相关文档