- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文档名称
文档密级
TIME \@ yyyy-M-d 2018-10-25
华为保密信息,未经授权禁止扩散
第PAGE1页, 共 NUMPAGES \* Arabic \* MERGEFORMAT 20页
浅析Social Network和Graph Mining的应用和机器学习技术
【摘要】随着移动互联网的到来,UCG(用户产生内容)的不断发展,社交网络(Social Network)已经不断普及并深入人心,用户可以随时随地在网络上分享内容,由此产生了海量的用户数据,面对大数据时代的来临,复杂多变的Social Network数据是有很多实用价值有待挖掘的。本文通过对专家协作和主题的关系发现系统和其相关的论文材料进行分析,讨论Social Network和Graph Mining相关的机器学习技术, 为基于关系图谱的Social Network数据挖掘和应用提供一些思路。
随着Facebook,Twitter,新浪微博,LinkedIn等社交媒体网站的流行,对Social Network 的数据挖掘是近几年的一个技术热点,而Social Network中的用户与用户,用户与主题,用户与活动的关系网络就是一种图结构的海量数据,所以Social Network 的分析中一个主要方向就是针对关系图的Graph Mining。而针对Social Network和Graph Mining,传统计算机技术面临很多挑战,比如,图节点和边的数据已经达到数十亿的数据级别,海量图数据的分析计算和检索比较困难。而且,图数据结构是很复杂的,基于图结构的数据构建算法模型复杂度很高,比如,构建Social Network影响力传播的动态传播模型是很复杂的。还有,海量数据处理,势必带来并行化处理的要求,而图数据的关联性大,图数据分割复杂,导致基于图数据的分析算法并行化难度很大。面对这些挑战和困难,学术界已经有一些研究和实验,以下介绍的arnetminer系统的算法介绍,可以为基于图数据的Social Network和Graph Mining工作提供一些方法和思路。
先来看一下,什么是图数据挖掘?图是一种很重要的数据结构,关于图数据的数据挖掘有很多方向和应用领域,简介如下:
纯理论的图数据挖掘中一个热点是频繁子图的数据挖掘(Frequent Subgraph Mining),即从图数据集合中寻找出现次数不少于最小支持度的子图。这个领域中有很多算法,AMG,FSG,FFSM,gSpan, SUBDUE,GBI,SIGMAR,GREW等等。
本文分析的是面向Social Network的图数据挖掘,主要关注的是社群发现(Community Detection),专家发现和排名(Ranking),结构洞分析(Structure Hole),影响力分析(Influence Analysis),社交关系(Social Tie),还有多种不同类型网络的数据集成等问题。
首先,讨论一下Social Network数据挖掘的应用方式:
基于Social Network的意见传播,动态网络影响力传播分析。 举个例子:华为发布P6手机后,需要做媒体宣传推广,假设领导给定100万预算,需要利用新浪微博做P6手机推广,那么市场人员最关心的问题就是,预计每个新浪博主的宣传费是1万元,怎么用这100万预算,在新浪微博上把P6手机的推广做的效果最好? 具体化描述就是:基于新浪微博数据的用户Social Network中,需要找到Topic是“手机”相关的100个人(节点),这100个节点的影响力传播范围最大。这就是Social Network分析的典型应用之一,需要分析相关主题图结构数据中的“意见领袖”,“结构洞”(即跨越不同社群子网络的桥接节点),“动态网络影响力传播模型”等问题。类似的影响力传播图示:
领域专家发现,排名。举个例子:公司需要招聘数据挖掘方面的专家和牛人,招聘人员最关心的问题是,怎么找到学术界最有影响力的专家,以及这些专家擅长的学术课题,研究的技术方向,主要参加哪些学术会议,发表哪些论问题,合作者有哪些? 具体化描述就是:在某个学术主题Topic下,在相关论文,会议和作者构成的图数据中,找到专家的综合影响力分析排名,并找到专家与和合作者的关系,专家与研究课题,和相关学术会议的关系。(注:学术界专家评价有一个重要的参数是H-index指数,H-index指发表N篇论文,每篇论文的引用数至少是N,他的H-index就是N。) 比如,数据挖掘领域专家排名:
社交关系分析。按照Social Network的六度空间理论,每两个人的关系一般只需要通过6个中间人就可以建立关系,所以社交媒体中,人们之间关系基本都可以组成网络结构。社交关系分析,典型的应用
原创力文档


文档评论(0)