基于用户兴趣的度的在线邮件个性化分类新方法1.docVIP

下载本文档

1
0
约7.87千字
约 11页
2017-01-20 发布于北京
举报
版权申诉

基于用户兴趣的度的在线邮件个性化分类新方法1.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于用户兴趣度的在线邮件个性化分类新方法 1 引言随着网络技术的迅速发展，电子邮件已成为人们日常生活中重要的通信手段之一。日益增长的垃圾邮件常常附载大量虚假、不健康, 甚至危害社会稳定与安全的信息。垃圾邮件过滤是典型的二分类问题，具有区别于传统文本分类的特点[Active Learning for On line Spam Filtering，集成学习和主动学习相结合的个性化垃圾邮件过滤]：首先，邮件过滤需根据用户的兴趣进行，同一封邮件在不同用户甚至处于不同时期的同一用户眼中可能得到不同的分类结果；其次，邮件过滤属于在线应用，因此对处理速度要求比较高；最后，在线邮件数量众多且种类复杂，难以通过传统人工标注形成通用的训练样本集。因此，如何有效解决以上问题成为在线邮件识别的首要任务。增量学习是一种应用于在线邮件识别的典型技术[Incremental Leaning Algorithm Based on SVM]。与传统学习技术相比，增量学习可以充分利用历史学习的结果，在不显著降低样本识别精度的前提下，节省后续训练时间。Batch SVM将初始训练集中支持向量集加入至增量样本集合中形成新的训练集，其针对训练集中冗余样本处理过于简单，算法识别精度不高； [Active Learning for On line Spam Filtering]提出了一种基于缓存的邮件识别方法，该方法将待分类邮件与某段时间内所接受邮件进行相似度比较以实现对重复邮件的迅速分类；[基于主动学习的视频对象提取方法]将SVM和主动学习结合起来，增量学习过程选择正类样本构造新的最优超平面。算法能准确识别正类样本，但针对负类样本的检测精度较低；[集成学习和主动学习相结合的个性化垃圾邮件过滤]根据用户反馈构建个性化的用户兴趣模型，通过组合邮件模型分类器与兴趣模型分类器结果实现对邮件的准确分类。该方法通过SVM集成学习有效降低了特征向量空间维数，算法执行速度较快；[Online active multi-field learning for efficient email spam filtering]将邮件分为多个域，针对每个域构建一个域分类器，并在一个组合分类器中处理多个域的分类结果。算法通过接收用户反馈的标注结果实现各个域分类器的更新，分类精度较高，但是样本预测过程需要考虑该样本与所有已标注样本之间的关系，故当样本数量较多时，算法时间复杂度较高；[基于主动学习和半监督学习的多类图像分类]通过BvSB主动学习去挖掘那些对当前分类器模型最有价值的样本进行人工标注, 并借助CST半监督学习进一步选择样本集中大量的未标注样本, 使得当标注代价较小时仍能够获得良好的分类性能。但是，现有算法普遍存在下面问题：1°难以准确判定样本分类结果的确定性，若在学习过程中加入分类错误的样本，算法识别精度将受到影响；2°待标注样本选择过程往往需要训练集中所有样本参与，导致计算复杂度较高；3°传统主动学习只能获知用户是否对某邮件感兴趣，未具体量化用户的兴趣浓厚程度，忽略了用户关注程度不同的邮件被错分所带来的代价往往不同。本文对传统Batch SVM模型做出改进，引入用户兴趣度的概念，在主动学习过程中进一步考虑用户对邮件内容关心程度，实现了一种在线邮件个性化分类新方法。 2 相关理论 2.1 Batch SVM增量学习 Batch SVM是最早期的SVM增量学习方法，该方法由Syed等人提出，现在已成为机器学习中一种典型的增量学习方法[N. Syed, H. Liu, and K. Sung. Incremental learning with support vector machines. In Proceedings of the Workshop on Support Vector Machines at the International Joint Conference on Articial Intelligence (IJCAI-99), Stockholm, Sweden, 1999]。如图所示，该方法实现的具体步骤如下：图4.1 Batch SVM增量学习算法示意图输入：1，…，增量样本集合In；步骤1：使用SVM对1进行训练，获得支持向量集合SV1；步骤2：加入SV1，得到支持向量集合SV2；步骤3：类似步骤2的过程直到所有的都已参加。：增量学习后的分类器 Batch SVM增量学习算法存在以下的问题： 1） 2） 3）学习过程未融入用户兴趣，无法根据用户不同需求进行个性化分类。 2.2 主动学习模型主动学习使用未标记样例辅助分类器的训练过程，目的是在增量训练过程中有选择地扩大有标记样例集合和循环训练的方法使分类器获得了更强的泛化能力。主动