标签预测——基于相似度算法3.pptVIP

下载本文档

8
0
约1.77千字
约 13页
2018-09-24 发布于江苏
举报
版权申诉

标签预测——基于相似度算法3.ppt

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

标签预测——基于相似度算法3

标签预测的定义在部分节点被标签的网络中，基于网络的结构和已知标签节点的信息预测未被标签节点的分类标签预测的方法相似性算法局部算法 Common Neighbors Jaccard Index Sorensen Index Adamic-Adar Index Resource Allocation 全局算法 Katz Average commute time Cos+ RWR（Random Walk with Restart） Even-step RWR 相似性算法应用于链路预测简单用例实验数据数据集Political Books 105个节点，441条边红色表示中立派蓝色表示自由派黄色表示保守派处理数据 a）归为两类标签b）保持三类标签以比例q将数据集随机划分为训练集和测试集实验部分结果 CN与RN差异的分析两节点结构与三节点结构（consistency and two-step consistency） Common Neighbors：a-a-a，a-b-a，a-a-b Relational Neighbors：a-a，a-b 局部算法与全局算法的比较实验结果结论 local算法表现不差于global算法（q=0.1除外） local算法具有更低计算复杂度将链路预测的相似性算法应用于标签预测是可行的不足评价指标的局限性：accuracy的不公平性需要预测100个节点的标签，其中80个为a，20个为b 算法A预测80个为a，错了10个，预测20个为b，同样也错了10个，可以得到得 p = 0.8 算法B预测100个全为a，得 p = 0.8 可用AUC解决（ Receiver Operating Characteristic curve ）从整体的角度衡量算法的精确度谢谢 * * 标签预测 ——基于相似度算法电子科技大学互联网科学中心张千明 QM-Zhang@ [1]. Qian-Ming Zhang, Ming-Sheng Shang, Linyuan Lü, Similarity-based classification in partially labeled networks, IJMPC, Vol: 21 Iss: 6, pp 813 ( 2010 ) [2]. Qian-Ming Zhang, Ming-Sheng Shang, Wei Zeng, Yong Chen, Linyuan Lü, Empirical comparison of local structural similarity indices for collaborative-filtering-based recommender systems, Physics Procedia ( accepted ) a ? a b 图1：标签预测示例方法1：基于直接邻居前提假设：与它的邻居具有相同的标签方法2：基于节点间的相似度前提假设：与某节点v的相似度越高就倾向于与v具有相同的标签图2：预测方法用例 1 2 3 4 u 5 两种方法的不同思想（1）： 1）u的邻居中很少具有标签 2）网络中有很多已标节点，但很少是u的邻居基于2），我们想到了链路预测中的相似性算法注释（1）：详见Brian Gallagher, Hanghang Tong等人的《Using Ghost Edges for Classification in Sparsely Labeled Networks》核心在于度量节点间的相似性相似度决定着目标节点的标签类型评价指标以Common Neighbor为例，解释如何将相似度算法应用到标签预测中 S(3,1)=2 S(3,2)=1 S(3,4)=1 a ? a b 1 4 3 2 故： P(a)=3/4 P(b)=1/4 预测节点3的标签为a 图3：标签预测一例图4：PB网络结构标签归为两类，并以此为例：左：“中立派、非中立派”，右：“自由派、非自由派” 图5：local算法对比三种类型标签的网络图6：local和global算法比较