- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概念与技术原书第2版第9章图挖掘、社会网络分析和多关系数据挖掘2_数据挖掘
第9章图挖掘、社会网络分析和多关
系数据挖掘
本章内容
图挖掘
社会网络分析
多关系数据挖掘
小结
社会网络分析
什么是社会网络
社会网络的特征
链接挖掘:任务和挑战
挖掘社会网络
什么是社会网络
从数据挖掘的角度来说,社会网络分析也称为链
接分析或者链接挖掘
社会网络是由图表示的异构多关系的数据集。
节点对应对象,边对应对象间联系或相互作用的链接
节点和链接都有属性
对象可以具有类标号,链接可以是单向的并且不必是二元的。
社会网络不必是社会的
电力网络、电话交互图、计算机病毒传播、万维网以及科学家的合著关系和
引用网络
流行病学网络、细胞与新陈代谢网络、食物网络
公司内的信息交换、聊天室、朋友关系
消费者网络
小世界网络
最初关注的是个人之
间的网络
特点
小部分节点存在着高度局部聚类,
同时,这些节点与其余节点的分割
度没有几度。 六度分割
表现在社会的、自然的、人类设计
和生物的网络中
在个体节点存在大量可用信息
帮助我们设计网络,利于信息或者
其他资源的有效传输,不必用太多
的冗余连接使网络过载。
纽约州电力网络
科学合著者网络
生物化学路径网络
社会网络分析
什么是社会网络
社会网络的特征
链接挖掘:任务和挑战
挖掘社会网络
社会网络的特征
节点的度是与每个节点相关联的边数
节点对之间的距离用最短路径长度度量
网络直径是节点对之间的最大距离
其他节点到节点的距离包括节点对之间的
平均距离和有效距离
社会网络难得静止,其图表示随时间节点
和边的增加或删除而演变
社会网络呈现的现象
稠化幂律
恒定平均度假设:随着网络的改变,读数随节点数线性增长,网络随
时间推移变得越来越稠密,随平均度增加。
稠化幂律:e(t) ∝n(t) α, α=1对应时间上的恒定平均度;α=2对应
于非常稠密的图,其中每个节点到所有节点的一部分都有边
收缩直径
有效直径趋向于随网络增长而减少
重尾出度和入度分布
节点的度趋向于服从遵守幂律1/n α的重尾分布,α越小,其尾越
重
入度服从重尾分布,趋向于比出度分布更倾斜
两种模型
优先配属模型
每个新节点以不变的出链数添加到一个已有的网络,遵循“富者越富”
的原则
森林火灾模型
体现了图随时间演变的特征,基于新节点以蔓延的方式“燃烧” 已有边
进入网络
两种参数:前向燃烧概率和后向燃烧概率
考虑网络随时间的演变
遵守重尾出度性质、重尾入度性质、稠化幂律和收缩直径性质
社会网络分析
什么是社会网络
社会网络的特征
链接挖掘:任务和挑战
挖掘社会网络
链接挖掘:任务和挑战
传统的机器学习和数据挖掘方法取一个关
系中的同源对象的随机样本作为输入
链接挖掘的应用领域
社会网络、链接分析、超文本和Web挖掘、图挖掘、关系学习、归纳
逻辑计划
表现了描述性和预测性建模
通过考虑链接,挖掘过程可以获得更多的信息
带来一些新的任务
链接挖掘的任务1
基于链接的对象分类
根据对象的性质、对象的链接和被链接对象的属性来预测对象的类别
网页分类是公认的基于链接分类的例子,基于词出现和锚文本是属性
分类是基于网页之间的链接以及网页和链接的其他属性
对象类型预测
根据对象的属性和链接,及其链接到它的对象的属性预测对象的类型
链接类型预测
根据所涉及的对象的性质,预测链接的类型或目的
预测链接的存在性
知道两个对象之间存在联系,想预测它的类型
链接挖掘的任务2
链接基数估计
可以预测到一个对象的链接数目,出链的数量用来识别充当网络中心的网页
预测从一个对象沿一条途径到达的对象数
对象核对
任务是根据对象的属性和链接来预测两对象是否事实上相同
常见于信息提取、副本删除,对象合并和引用匹配
组检测
根据对象的属性和链接结构,预测对象集何时属于同一组或簇
子图检测
子图识别发现网络中典型的子图,是一种图搜索形式
元数据挖掘
元数据是关于数据的数据,提供了关于无结构数据的半结构化数据
您可能关注的文档
最近下载
- 居间助贷代理合同协议.docx VIP
- 塑料制品 挥发性有机化合物和半挥发性有机化合物的测定 热脱附气相色谱质谱法.docx VIP
- 最新CQI-27铸造系统评估表 第二版(2023).XLSX VIP
- (推荐!)GB 45673-2025《危险化学品企业安全生产标准化通用规范》之“5.2 安全生产责任制”审核检查单(2025A0).docx VIP
- NB∕T 32037-2017 光伏发电建设项目文件归档与档案整理规范.pdf VIP
- 个人房屋租赁合同范本(免费)最新.pdf VIP
- 无刷伺服驱动器XVy-EV 中文说明书.pdf
- 实施指南《GB15979 - 2002一次性使用卫生用品卫生标准》实施指南.pptx VIP
- 医院培训课件:《PICC置管与护理》.pptx
- 个人收入证明模版word编辑版.doc VIP
文档评论(0)