- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
社会网络中的数据挖掘方法
摘要:随着Web2.0技术的发展,社交网络在人们生活中所起的作用越来越大,社会网络分
析越来越多得受到人们的重视,将数据挖掘的方法应用于社会网络分析成为数据挖掘研究的
一个新的方向。如何从庞大冗杂的社会网络数据中挖掘出有用的信息成为广大学者研究的问
题,并且当前关于社区挖掘的绝大多数方法都假定社会网络中只存在一种关系,挖掘结果并
不完全符合用户的真实需求。因此,本文将从节点依赖性着手分析社会网络中数据之间的联
系,从链接挖掘入手,分析得出关联分析和聚类分析这两种数据挖掘方法,并在此基础上简
要探讨了多关系社会网络的数据挖掘方法。
关键字:社会网络;数据挖掘;关联分析;聚类分析;多关系
传统的机器学习和数据挖掘任务处理的对象是单独的数据实例,这些数据实例往往可以
用一个包含多个属性值的向量来表示,同时这些数据实例之间假设是统计上独立的。然而在
社会里,人与人不是简单的统计上独立的采样点,他们之间必然存在着联系和影响。忽视了
这种联系会对数据挖掘效果带来很大的影响。为了解决这个问题,必须将数据实例之间的关
系同时考虑进来,从而人们提出了社会网络的概念,试图用图结构来刻画这种社会结构。
将数据挖掘的方法应用于社会网络分析是数据挖掘研究的一个新的方向。社会网络分析
又称为链接挖掘(linkmining),节点代表社会网络中个体或团体,链接表示了个体之间存
在的各种关系(relation),如朋友关系、亲属关系、贸易关系、性关系等。通过对链接的
挖掘我们可以获得关于实例更丰富(如某个实例在整个网络中的重要性)、更准确(如预测
某个实例所属的类别)的信息。
近年来,社会网络的个体影响力分析和关键成员挖掘在研究上获得了广泛的关注。通常
认为,节点的社会地位可以用一种打分函数进行衡量,而这个打分函数的取值就可以被理解
为节点在社会网络上的影响力或权威性。通常权威性函数值大的节点可以被理解为是网络中
的重要个体,或关键成员。根据网络的不同,关键成员挖掘技术具有不同的应用背景。例如,
Web搜索服务提供者期望通过分析链接结构,计算网页的重要性,从而为用户提供最贴近需
求的搜索结果;在学术合作网络中,人们期望通过对合作结构和主题进行层次分析,从而发
现合作模式和重要学者;在线社交网站中,通过主题对个体进行重要程度和个人兴趣进行分
类,从而发现关键成员和意见领袖。类似的研究在学术研究、舆情分析、商业推广等领域上
都有很好的应用。在社会网络中,每个个体都在网络结构中体现出了不同的社会影响力。例
如,在微博网络中,同样的话题由不同的成员转载,受到的关注度往往会大不相同。是什么
原因造成了这种影响力的差异呢?我们认为,个体的结构上下文,即个体在网络的链接结构
中所处的位置,是造成个体在网络中受关注程度差异的重要因素。这种结构带来的差异性体
现了网络中个体的社会特征,这也是社会网络中节点重要性排名算法与一般检索系统不同的
重要原因。社会网络中的成员间往往在信息交换中体现出一种相互依存的特点。例如,微博
中部分ID走红的原因其支持者的关注和评论,而某些ID的受到的关注则来源其自身发表内
容的吸引力。相比起来,前者对网络表现出一种强烈依赖的特征,即如果将其支持者与其关
系断开,其受关注程度必然会有大幅下降;由于后者依靠其自身内容吸引读者,网络结构对
其的影响力则相对较小。这一现象是由社会成员在网络中体现出的社会性造成的。假设网络
发生某种特定结构的变化,如果一个个体在结构变化时,其自身影响力也发生改变,则这种
改变可以被理解成个体对其网络结构的依赖。分析节点对网络结构的依赖性和支持力在实际
中拥有广泛的应用前景。
社会网络中的每个成员有着或大或小的关联度,他们相互依存,但由于个体在网络的链
接结构中所处的位置的不同,使得个体间关联度大小及影响力不同,通过对关联规则的分析
可根据客户需求有效地进行数据挖掘。关联规则分析首先由GovindP.AGRAWAL等人提
出,用来发现购物篮数据事务中各项之间的有趣联系。从那以后,进行了广泛的研究,以解
决关联分析的概念,实现和应用问题。关联规则是形如X→Y的蕴含表达式,其中X和Y
是不相交的项集,即X∩Y=φ。关联规则的强度可以用它的支持度和置信度度量。支持度确
定规则可以用于给定数据集的频繁程度,而置信度确定Y和在包含X的事务中出现的频繁程
度。关联规则的挖掘问题就是生成所有满足指定的最小支持度和最小置信度的关联规则。满
足最小支持度和最
文档评论(0)