- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十章 在线社交网络分析;目录 Contents;社交网络
信息概述; 社交网络分析概述;在线社交网络及其发展;在线社交网络及其发展;在线社交网络及其发展;在线社交网络管理关键分析要素;1) 话题发现
话题发现是网络文本分析与挖掘领域的重要研究内容。
最初来源于美国国防部高级研究计划局(DARPA)发起的TDT(Topic Detection and Tracking)项目。
在话题发现领域,话题又称为主题,一个话题是词的一个概率分布,反应了不同的词在文档中的共现模式。话题模型在挖掘不同话题的词分布的同时,建模不同文档的话题分布,从而将那些共享相似话题模式的文档联系起来,形成聚类,便于管理者掌握网络内容全局话题动态,发现焦点话题,并针对感兴趣的话题内容进行详细分析与追踪。
话题模型是话题发现的重要方法之一,其是一种概率生成模型,通过概率模型建模文本的生成过程来得到文本的话题。
;2) 个体影响力计算
研究如何度量并计算个体对其他个体的这种影响能力。
个体影响力分析与计算在多个领域有着广泛应用,比如推荐系统、意见领袖发现、突发事件检测、广告投放、病毒式营销等。
发现并追踪具有高影响力的个体,监测他们制造的舆论以及针对舆论发表的言论对于掌握社交网络内容安全态势具有重要意义,同时还可以利用高影响力的个体传播正面信息,消除负面舆论影响,实现社交网络安全管理。;3) 信息传播与引导
信息传播是个人、组织和团体等利用符号通过媒介向其他个人或团体传递信息、观念、思想或情感的过程。
和传统信息媒体非对称信息发布与信息接收相比,在线社交网络作为新型的信息共享平台,最大的特点是使每个个体都有可能成为信息的发布者和传播者。
研究信息传播,首先要对信息传播进行数学建模。;目录 Contents;社交网络话题
发现模型;概率潜在语义分析模型(PLSA)
PLSA模型基本原理
新文本话题发现
隐含狄利克雷分配模型(LDA);1) PLSA模型基本原理
文本本质上是由词组成的,每篇文本可以看作一个有序的词序列。
统计文本建模的目的是学习文本词序列的生成规律。每篇文本并不是完全随机生成的。用户在写一篇帖子时,往往首先要确定要写关于哪些主题的内容,再根据要这些主题确定要写的词。
一篇帖子通常可能由多个主题构成,而每个主题可以用在该主题中出现频率相对较高的词来描述。;?;?;?;在文本话题模型中,因为词分布和话题分布都是多项分布,所以它们的先验分布的一个好的选择是Dirichlet分布,这就得到了LDA(Latent Dirichlet Allocation)模型。
LDA模型是有D.M.Blei等人于2003年提出的一个三层贝叶斯产生式概率模型。
LDA模型基于如下假设:该模型是基于词袋(bag-of-word)模型的,即在该模型中为考虑词序性,认为文档中的词具有可交换性,每个词都是独立出现的,交换顺序对于文档无影响。这样的假设对真实的自然语言进行了简化,以便于算法处理。;?;?;目录 Contents;社交网络个体
影响力计算;影响力概念
通过用户间的互动行为来传播的。社交网络中的重要节点由于其网络拓扑结构方面的特点和自身较大传播影响力等因素,相较于其他节点能够更容易影响附近节点状态,从而使得消息获得更大范围的传播。
衡量影响力重要性的算法:
度中心性、介数中心性、接近中心性、PageRank等。
影响力计算模型
基于网络结构
基于话题
基于综合评价模型;网络结构概念
基于网络结构的个体影响力计算主要从网络的节点和连边出发,利用这些内容建立指标提取网络的结构信息,计算得到节点的影响力大小。
代表性指标
度中心性
介数中心性
接近中心性
LH-index
PageRank
;Freeman提出度中心性的概念。
这个指标指的是网络内节点与邻居节点连边的数量。
在社交网络中,节点的邻居节点越多,这个节点的影响力越大。
使用微博的例子可以很清楚地解释这个观点,比如拥有百万粉丝的“大V”明显比只有几百粉丝的普通微博用户有更高的影响力。;?;?;?;PageRank算法是由Larry Page提出。
这个算法最初应用于搜索引擎中,根据网页之间的链接关系计算网页的影响力排名,即一个页面的影响力是由所有与它有链接关系的页面的影响力决定的。
PageRank的计算充分使用了两种假设:数量假设和质量假设。
数量假设:一个网页与其他网页之间的链接数量越大,这个网页的质量越高。
质量假设:与这个网页有链接关系的网页的质量越高,这个网页的质量越高。
;?;?;?;Jianshu Weng提出了TwitterRank算法。
该算法将用户间的话题因素加入到节点的影响力计算中,在PageRank的基础上引入了话题相关性,用来计算与主题相关的twitter中的用户的影响力。
与PageRan
您可能关注的文档
- 信息技术基础-Office-2010实用案例教程教学课件-第3章职业生涯规划文档制作.pptx
- 信息检索与运用PPT课件(共8章)第三章-淡墨留香的知识典藏---纸质文献检索.pptx
- 信息内容安全管理及应用教学课件(共12章)第1章.pptx
- 信息内容安全管理及应用教学课件(共12章)第2章.pptx
- 信息内容安全管理及应用教学课件(共12章)第3章.pptx
- 信息内容安全管理及应用教学课件(共12章)第11章信息过滤.pptx
- 信息内容安全管理及应用教学课件(共12章)第12章.pptx
- 信息内容安全管理及应用教学课件(共12章)第八章基于深度学习的图像处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第九章深度网络自然语言处理.pptx
- 信息内容安全管理及应用教学课件(共12章)第六章图像处理特征抽取.pptx
- 信息内容安全管理及应用教学课件(共12章)第四章文本信息特征抽取.pptx
- 信息内容安全管理及应用教学课件(共12章)第五章音频数据处理.pptx
- 信息社会责任概念介绍.pptx
- 信息素养概念介绍.pptx
- 行业会计比较教学课件(共8单元)项目1-行业、行业会计及比较.pptx
- 行业会计比较教学课件(共8单元)项目2-农业企业会计.pptx
- 行业会计比较教学课件(共8单元)项目3-商品流通企业.pptx
- 行业会计比较教学课件(共8单元)项目4-旅游饮食服务企业会计.pptx
- 行业会计比较教学课件(共8单元)项目5-交通运输企业会计.pptx
- 行业会计比较教学课件(共8单元)项目6-建筑安装企业会计.pptx
最近下载
- 2025中国中医科学院中医药健康产业研究所 (江西中医药健康产业研究院) 招聘事业编制人员18人笔试备考试题及答案解析.docx VIP
- 预算编制的时间安排.pptx
- T∕COSOCC 014-2024 信息技术应用创新 经营管理系统数据管理技术规范.pdf VIP
- 《装备测试性工作通用要求GJB 2547B-2024》知识培训.pptx VIP
- 全电路欧姆定律.ppt VIP
- 王立群读《史记》之汉代风云人物——项羽 鸿门宴.doc VIP
- 小学与初中数学课程衔接的研究教学研究课题报告.docx
- 幕墙工程完整的清单报价.xls VIP
- 专题4平行线中的翻折求角度问题及角度之间的关系(原卷版+解析).docx VIP
- 版义务教育《艺术音乐课程标准》测试题含答案(荐).docx VIP
文档评论(0)