- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于六度空间原理的深圳移动社会关系网络研究和应用
深圳公司“社会关系网络应用” 市场部 刘敏 陈颖星 * 项目背景 项目介绍 项目效果分析 项目创新点和亮点 项目自评 * “六度空间原理”(Six Degrees of Separation),指任意两个人之间通过社交网络,最多经过六个人的距离就可以互相认识。现实生活中,存在着我们日常生活中非常熟悉的社交网络实体,经典的BBS、论坛、校友录、博客,最近比较流行的还有开心网、新浪微博等,都能够体现六度空间原理。当前,已经有很多成熟的社交网络技术在这些实体运营商日常的市场营销和商业决策中发挥了作用,而且,开心网、微博等都和移动互联网有着密切的合作关系。因此移动社交网络化将是一个趋势。 电信社会关系网络(电信社交网络)是指依据移动客户之间的电信通信行为关系构建的网络。深圳移动用户作为庞大社会关系网络的主要部分,拥有深圳完整电信社会关系网络的几乎所有性质,而且移动用户之间的通信关系的可靠性及通信数据的完整性,使得移动社会关系网络更加适合于进行挖掘,并将结果应用于移动通信公司的市场营销活动。 基于以上原因,深圳移动实施了“基于六度空间原理的深圳移动社会关系网络研究和应用”的科技创新项目。 一、项目背景 移动社交网络化是一个趋势 深圳移动:具备深圳完整电信社会关系网络的几乎所有特质 * 项目背景 项目介绍 项目内容 项目重点技术及方法 项目效果分析 项目创新点和亮点 项目自评 * 项目研究内容包括两大方面: 1、研究制定电信网络六度空间理论应用的可能性、可行的算法和适配的案例等。 在学术界,六度空间原来和技术的研究已经有了很丰满的结果。本项目立足于应用,因此主要是进行理论及其实践的可行性分析,同时为具体实施选择合适的方法提供理论基础,主要包括:六度空间原理的验证、电信网络几何性质分析、大型网络的社区识别、关键联系人识别,社区特征及演化分析、病毒营销种子识别等。 2、目前的主要应用包括:欢乐在线潜在家庭群体挖掘、竞争对手反挖与高价值客户保有、病毒营销种子选择及病毒选择等模型上。 二、项目介绍 基于亲邻度(PROPINQUITY)的网络社区识别算法 由于客户数据量比较庞大,因此在探索阶段,暂时只考虑短信、通话这两种联系方式,探索阶段考虑的是无向无权网络,在优化阶段将考虑各种联系方式、出向入向、边权设计。后面可以结合具体的业务,加入飞信、邮件等联系方式,建立具有针对性的网络。另外一个考虑也基于网络的稳定性,通话、短信比较经典普及,而飞信等业务不够广泛,而且相对地更具偶然性。 项目重点技术及实施方法(1) 前期算法探索: 1. 构建社交网络 2. 群体划分算法框架 3. 定义亲邻度 4. 选取核心边 5. 计算亲邻度之和 6. 划分群体 后期算法探索: 1.构建社交网络 2.网络权重设置 3.群体划分算法框架 4.选取核心边 5.计算亲邻度之和与权重平均值 6. 划分群体 基于模块化(MODULARITY)的网络社区识别算法 在电信行业的社群网络中,基于用户个体的社交网络关系是个超大型稀疏矩阵,虽然用户与其社交网络内的每个成员间都存在联系,但是成员之间并不一定都有紧密的联系。由于电信社群网络涉及海量数据运算,这里引入基于modularity optimization(modularity的概念由M.E.J. Newman在2004年提出,详细情况请参见 PHYSICAL REVIEW E 69, Finding and evaluating community structure in networks)的高效算法。通过该算法,把大型社会关系网络拆分为一个个相互不交叠的社区,社区内的结点要比社区外的结点具有更紧密的连接。 项目重点技术及实施方法(2) Google的PageRank算法 PageRank 算法是由斯坦福大学的博士研究生SergeyBrin 和Lawrence Page 于1998 年提出的,并成功应用在Google 搜索引擎中。Google 现在已经发展成为互联网上最好的搜索引擎之一 。其主要思想是:当网页A 有一个链接指向网页B 时,就认为网页B 获得了一定的分数,该分值的多少取决于网页A 的重要程度,即网页A 的重要性越大,网页B 获得的分数就越高。由于Web 上链接相互指向的复杂程度,该分值的计算过程是一个迭代过程,最终网页将依照所得的分数进行排序并将检索结果送交用户。 计算公式: 其中PR(A)是网页A 的PageRank值;d为界(0 ,1) 区间的衰减系数;一般取0. 85 左右;T1 , T2 , ?, Tn 为指向网页A的其它网页,C( Ti) 是网页Ti 向外指出的链接数目。PageRank 算法能够在网络中准确定位结点的重要程度,即根据用户查询的匹配程度,而且计算复杂度不高
文档评论(0)