- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
HipHop算法介绍—社交关系圈子自动打标签 具体计算流程 Step 1:群组内成员对兴趣标签投票:TF Step 2:取Top K作为候选标签 Step 3:根据同一用户不同群组的群组间IDF过滤一批标签 Step 4:剩下标签根据全局IDF计算TF.IDF公式,排序 Step 5: 启发规则加强,排序输出,取Top 3 提纲 什么是社交关系圈 从社交行为中自动挖掘社交关系圈 目前主流的社交圈子挖掘算法 HipHop算法介绍 自动挖掘用户社交关系圈 社交关系圈子自动打标签 算法效果示例 下一步工作 可能应用方向 算法效果示例 演艺圈代表 冯小刚 沈星 蔡康永 新浪网代表 申晨 权静 其它各界代表 史玉柱 黄健翔 马伯庸 算法效果示例(史玉柱挖掘结果-圈子1) 算法效果示例(史玉柱挖掘结果-圈子2) 算法效果示例(史玉柱挖掘结果-圈子3) 算法效果示例(史玉柱挖掘结果-圈子4) 算法效果示例(史玉柱挖掘结果-圈子5) 算法效果示例(史玉柱挖掘结果-圈子6) 提纲 什么是社交关系圈 从社交行为中自动挖掘社交关系圈 目前主流的社交圈子挖掘算法 HipHop算法介绍 自动挖掘用户社交关系圈 社交关系圈子自动打标签 算法效果示例 下一步工作 可能应用方向 可能应用方向 推荐 推人 智能排序 用户个性化建模 参考“权静”的例子,可以明显看出兴趣所在 关注人自动分组 营销大账户的内在关系分析 come on, PMs our demo: 谢 谢! HipHop算法:利用微博用户交互行为挖掘 社交关系圈 张俊林 新浪微博 2012-05-03 提纲 什么是社交关系圈 从社交行为中自动挖掘社交关系圈 目前主流的社交圈子挖掘算法 HipHop算法介绍 自动挖掘用户社交关系圈 社交关系圈子自动打标签 算法效果示例 下一步工作 可能应用方向 什么是社交关系圈 关系类型 社会关系(微博 vs IM) 同事(前同事、现同事) 微博 多 同学(小学、中学、大学、研究生) 微博少 亲友关系 微博很少 兴趣群组(微博 vs IM) NLP/搜索引擎/云计算 etc 足球/篮球/羽毛球 etc 音乐/粉丝圈 etc 从社交行为中自动挖掘社交关系圈 可行性 这是个目前非常流行的研究领域; 腾讯圈子效果不错(腾讯圈子未推出之前我们已经在做类似的事情); 从社交行为中自动挖掘社交关系圈 基本假设 你的社交关系存在不同小团体,相同团体成员之间有比较密切的互动行为,不同团体之间成员交互较少; 是否一定成立?未必,大多数时候成立 从社交行为中自动挖掘社交关系圈 自动挖掘系统期望同时达到以下目标 一个人属于多个社交圈 某个成员可以同时属于多个圈子(同学兼同事?相同兴趣的同事?) 社交圈可解释(性质,特征,打标签) 尽可能不用隐私数据(腾讯前车之鉴) 大规模数据更新速度较快 先看两个例子 投资界代表——沈南鹏 IT界代表——李开复 提纲 什么是社交关系圈 从社交行为中自动挖掘社交关系圈 目前主流的社交圈子挖掘算法 HipHop算法介绍 自动挖掘用户社交关系圈 社交关系圈子自动打标签 算法效果示例 下一步工作 可能应用方向 目前主流的社交圈子挖掘算法 单分类方法 典型特征:任意成员只能属于某一个固定的社交圈 多分类方法 典型特征:任意成员可以属于多个不同社交圈 Which one is better? 从实际应用角度,当然应该选择多分类方法 李开复:创新工场/IT社区/投资社区 目前主流的社交圈子挖掘算法 单分类方法 GN方法 谱分割方法(Wev done that on 30 million nodes) 标签传播方法 目前主流的社交圈子挖掘算法 多分类方法(尚不成熟) Clique 扩充法(2009) 模糊聚类方法 提纲 什么是社交关系圈 从社交行为中自动挖掘社交关系圈 目前主流的社交圈子挖掘算法 HipHop算法介绍 自动挖掘用户社交关系圈 社交关系圈子自动打标签 算法效果示例 下一步工作 可能应用方向 HipHop算法介绍 两个子任务 子任务1:自动挖掘用户社交关系圈 子任务2:社交关系圈子自动打标签 开发环境 levelDB外存存储社交数据 C++ HipHop算法介绍——自动挖掘社交关系圈 整体思路 从个人交互数据出发 首先寻找能够形成社交圈的种子 然后根据种子集合逐步外扩 多分类是通过初始的多个种子集合实现的 这与传统扩充方式不同 HipHop算法介绍——自动挖掘社交关系圈 三步走策略 步骤一:寻找一级关系的Max-Clique 步骤二: 对一级关系的扩充 步骤三:对二级关系的扩充 名词解释:K-Clique HipHop算法介绍——自动挖掘社交关系圈 步骤一:寻找一级关系的Max-Clique 解决问题
文档评论(0)