网站大量收购闲置独家精品文档,联系QQ:2885784924

基于邮箱活跃度邮件社区划分探究.doc

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于邮箱活跃度邮件社区划分探究

基于邮箱活跃度邮件社区划分探究   摘 要:为深入挖掘互联网邮件通联关系,提出了一种基于邮箱活跃度的邮件社区划分算法(MAS),并研究了邮件社区的性质与特征。算法采用基于邮箱通联活跃频度的余弦相似度评估邮箱之间通联关系的相似性,并通过层次聚类的方法指导邮件社区聚类,然后对社区中心进行动态调整以完成划分。在有效模拟数据集上的实验表明,该算法有效、合理,可以应用于实际的挖掘应用。 关键词:邮件社区;社会网络分析;数据挖掘;活跃度 中图分类号:TP393.098 现代社会中,互联网已经深入到人们的生活的各个方面,成为人们生活、工作不可缺少的一部分。人们在网络间的通信方式也多种多样,其中电子邮件是主要通信工具之一。电子邮件之间的相互通信在互联网上构成了庞大的邮件网络。在这个网络中,包含大量电子形式的个人信息以及邮箱用户之间相互通信关系。整个邮件网络又可以划分出若干的邮件网络社区。网络社区[1]表示在虚拟网络中,网民根据共同的兴趣而形成的真实的社会团体,具有实际社区的基本要素,包括人群(网民)、活动区域(网络)、互动行为、共同的社会心理基础等。网民在一定的网络空间内,围绕共同的需要和兴趣进行交流互动活动,相互之间构成的网络社区具有六度分离[2]的特性。邮件社区作为一种网络社区,也与现实中对应的社会关系网络是同构的,能够反映出社会网络中网民活动的社区通信信息和相互交流兴趣主题。目前有关网络社区[1,3]的研究较多,如网页社区研究,主要包括关联网页的查找、噪声网页的消除和网页关系聚类等;又如现在应用较多的微博网络社区研究,包括微博热点话题发现和基于主题聚类[4-6]等;再如垃圾邮件的识别与过滤等[7,8]。但是在邮件社区中,直接利用邮件通联关系进行社会网络构建的研究和应用相对比较薄弱,然而邮件社区研究对于发现邮件社区中的犯罪网络及分析网络核心成员等实际应用具有重要意义。 1 邮箱活跃度分析 邮件网络是一种社区网络,由众多邮件社区构成。邮件社区是由若干邮箱及邮箱之间的相互通信组成,如果将邮箱看作是节点,而通信关系看作是边,则邮件社区可以表示为一张图,有如下与关系网络[9]类似方法的定义。 定义1 邮件网络表示为加权图G=(V,E),其中V是顶点集合,E是边集合。在邮件网络中,v∈V代表一个邮箱,e=(vi,vj)∈E表示邮箱vi和vj之间存在通信联系,而w(e)(其中e=(vi,vj))表示邮箱vi到vj的关联频度,可以用邮箱vi和vj的通信次数表示。设Gk是G的子图,表示一个社区。社区Gk的直径,记作D(Gk),定义为Gk中所有节点对之间距离的最大值。而社区Gk的节点对的平均距离davg(Gk)是所有节点对之间距离的平均值。社区Gk的有效直径记作Dval(Gk),对于社区Gk中至少90%以上节点对,它们的距离小于或等于Dval(Gk)。 为分析研究邮件社区性质,本文使用了一组有效的互联网邮件模拟数据,能真实反映邮箱间通联关系特性。该数据集包含90天共200万邮件通联数据。对该数据集进行邮箱发送活动统计如下图所示,部分通联次数为1的邮箱未显示。统计发现,一共4.4W邮箱中,有4千个邮箱的主动发送次数大于20。这部分邮箱明显属于高活跃邮箱。其余邮箱组成了图中“长尾”部分。 仅用邮箱的通联次数来分析不同邮箱的特性显然是不足的。本文考虑引入邮箱的活跃度,定义邮箱的活跃特性。 定义2 活跃度t,表示目标邮箱在一段时间内的综合收发邮件的频度。依据现实社会人物的活动规律,对时间粒度划分的最小单位为天,定义活跃度t如下 其中tsend是发送邮件的活跃度,trecv是接收邮件的活跃度,α表示活跃系数。考虑发送邮件者作为主动方,而接收邮件作为被动方,发送邮件对活跃度贡献应略高于接收邮件,因此引入活跃系数α。发送活跃度tsend和接收活跃度trecv的计算方式相同,如下式: 其中si为第i天发送/接收邮件的次数,K为平衡因子,当没有接收和发送邮件时设si=1。该公式中,因为si不能为0(否则活跃度为零),所以不能区分第i天发送了一封邮件和没有发送的情况,因此引入了K平衡因子,使得两种情况有活跃度的差异。如果第i天发送/接收邮件的次数为零,则取si=1(不能为0),ki=1;反之,若si≠0,则si保持不变,ki=0;λ为递减权重,本文中取值λ=0.3,用于平衡因si=0时带来的误差。 活跃度可以很好度量突发性发送邮件的邮箱和平衡性发送邮件的邮箱之间的区别。例如:邮箱A仅在一个月某一天发送60封邮件,而邮箱B在一个月每天都会发送1到3封共60封邮件。显然邮箱B具有更高的活跃性,其计算得活跃度也更高。 定义3 邮箱间的活跃频度dt,表示两个邮箱之间在一段时间内综合收发邮件的频率,定义如下。

文档评论(0)

docman126 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档