信息内容安全管理及应用教学课件(共12章)第十章在线社交网络分析.pptxVIP

信息内容安全管理及应用教学课件(共12章)第十章在线社交网络分析.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十章 在线社交网络分析;目录 Contents;社交网络 信息概述; 社交网络分析概述;在线社交网络及其发展;在线社交网络及其发展;在线社交网络及其发展;在线社交网络管理关键分析要素;1) 话题发现 话题发现是网络文本分析与挖掘领域的重要研究内容。 最初来源于美国国防部高级研究计划局(DARPA)发起的TDT(Topic Detection and Tracking)项目。 在话题发现领域,话题又称为主题,一个话题是词的一个概率分布,反应了不同的词在文档中的共现模式。话题模型在挖掘不同话题的词分布的同时,建模不同文档的话题分布,从而将那些共享相似话题模式的文档联系起来,形成聚类,便于管理者掌握网络内容全局话题动态,发现焦点话题,并针对感兴趣的话题内容进行详细分析与追踪。 话题模型是话题发现的重要方法之一,其是一种概率生成模型,通过概率模型建模文本的生成过程来得到文本的话题。 ;2) 个体影响力计算 研究如何度量并计算个体对其他个体的这种影响能力。 个体影响力分析与计算在多个领域有着广泛应用,比如推荐系统、意见领袖发现、突发事件检测、广告投放、病毒式营销等。 发现并追踪具有高影响力的个体,监测他们制造的舆论以及针对舆论发表的言论对于掌握社交网络内容安全态势具有重要意义,同时还可以利用高影响力的个体传播正面信息,消除负面舆论影响,实现社交网络安全管理。;3) 信息传播与引导 信息传播是个人、组织和团体等利用符号通过媒介向其他个人或团体传递信息、观念、思想或情感的过程。 和传统信息媒体非对称信息发布与信息接收相比,在线社交网络作为新型的信息共享平台,最大的特点是使每个个体都有可能成为信息的发布者和传播者。 研究信息传播,首先要对信息传播进行数学建模。;目录 Contents;社交网络话题 发现模型;概率潜在语义分析模型(PLSA) PLSA模型基本原理 新文本话题发现 隐含狄利克雷分配模型(LDA);1) PLSA模型基本原理 文本本质上是由词组成的,每篇文本可以看作一个有序的词序列。 统计文本建模的目的是学习文本词序列的生成规律。每篇文本并不是完全随机生成的。用户在写一篇帖子时,往往首先要确定要写关于哪些主题的内容,再根据要这些主题确定要写的词。 一篇帖子通常可能由多个主题构成,而每个主题可以用在该主题中出现频率相对较高的词来描述。;?;?;?;在文本话题模型中,因为词分布和话题分布都是多项分布,所以它们的先验分布的一个好的选择是Dirichlet分布,这就得到了LDA(Latent Dirichlet Allocation)模型。 LDA模型是有D.M.Blei等人于2003年提出的一个三层贝叶斯产生式概率模型。 LDA模型基于如下假设:该模型是基于词袋(bag-of-word)模型的,即在该模型中为考虑词序性,认为文档中的词具有可交换性,每个词都是独立出现的,交换顺序对于文档无影响。这样的假设对真实的自然语言进行了简化,以便于算法处理。;?;?;目录 Contents;社交网络个体 影响力计算;影响力概念 通过用户间的互动行为来传播的。社交网络中的重要节点由于其网络拓扑结构方面的特点和自身较大传播影响力等因素,相较于其他节点能够更容易影响附近节点状态,从而使得消息获得更大范围的传播。 衡量影响力重要性的算法: 度中心性、介数中心性、接近中心性、PageRank等。 影响力计算模型 基于网络结构 基于话题 基于综合评价模型;网络结构概念 基于网络结构的个体影响力计算主要从网络的节点和连边出发,利用这些内容建立指标提取网络的结构信息,计算得到节点的影响力大小。 代表性指标 度中心性 介数中心性 接近中心性 LH-index PageRank ;Freeman提出度中心性的概念。 这个指标指的是网络内节点与邻居节点连边的数量。 在社交网络中,节点的邻居节点越多,这个节点的影响力越大。 使用微博的例子可以很清楚地解释这个观点,比如拥有百万粉丝的“大V”明显比只有几百粉丝的普通微博用户有更高的影响力。;?;?;?;PageRank算法是由Larry Page提出。 这个算法最初应用于搜索引擎中,根据网页之间的链接关系计算网页的影响力排名,即一个页面的影响力是由所有与它有链接关系的页面的影响力决定的。 PageRank的计算充分使用了两种假设:数量假设和质量假设。 数量假设:一个网页与其他网页之间的链接数量越大,这个网页的质量越高。 质量假设:与这个网页有链接关系的网页的质量越高,这个网页的质量越高。 ;?;?;?;Jianshu Weng提出了TwitterRank算法。 该算法将用户间的话题因素加入到节点的影响力计算中,在PageRank的基础上引入了话题相关性,用来计算与主题相关的twitter中的用户的影响力。 与PageRan

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

从事职业教育近20年,高级职称。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档