舆情信息的结构分析byZYS.pptVIP

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C’x’c’q 舆情信息的结构分析 by ZYS P art 1 舆情网络 舆情网络的构建方法 01 02 基于条目之间内容相似度 基于主题之间的回复或引用关系 将每一个条目对应网络中的一个节点,将条目之间的相似度定义为网络中边的权值。 若主题节点A中主题引用了主题节点B中的主题,或者A中给出了指向B中主题的链接,那么就建立一条从节点B指向节点A的有向边,边的权值表示节点A到B的直接关联度。 P art 2 分析基础 舆情网络示意图 舆情网络分析基础 01 02 03 节点扩散度 整体扩散能力 聚集性 节点的最大度、节点的平均度和节点的度分布。 网络的平均最短路径、网络的直径和最短路径分布。 在一个网络中,一个节点的两个邻居彼此也有可能有连接。聚集性用于描述这种可能性的程度(即网络连接的聚集程度)。 关键节点 01 02 节点介数 节点的接近中心度 网络中经过此节点的最短路径数目占所有最短路径数目的比例(反映节点在网络中的连接性)。 此节点到其他节点的最短路径的平均值(反映了节点与网络中其他节点的接近程度)。 网络中的关键节点是指在舆情传播过程中起到重要作用的节点。例如,网络中大度节点可以被认为是关键节点,这类节点连接了很多其他节点,通过它很容易将信息传播出去。 P art 3 社区结构分析 社区结构示意图 常见社区发现方法 01 02 03 迭代二分法(计算机科学) 层次聚类法(社会学中分级聚类的思想方法) G-N方法(社会学中分级聚类的思想方法) 谱二分法 Kernighan-Lin方法(需要事先知道该网络两个社区大小,难以应用) 属于凝聚算法 属于分裂算法 基于节点扩展的社区发现 01 03 05 节点强度 节点i相连所有边权重之和 社区大小 社区C包含的节点数量(需要大于给定的阈值) 不重叠社区的划分 社区的粗划分 社区的精化 连接强度 节点i与社区C相连的边的权重之和 模块度 反映社区划分的效果 重叠社区的发现 初始社区的发现 社区扩展 02 04 06 特征降维 01 02 特征选择 特征提取 特征频度、文本频度、特征熵、信息增益和互信息 主成分分析(KL变换) 潜在语义分析(奇异值分解) 随机映射(Johnson-Lindenstrauss引理) 关键节点 网络中的关键节点是指在舆情传播过程中起到重要作用的节点。 舆情内容特征库 内容特征集族 事件类别 事件 事件子集 舆情文本分类和聚类 01 02 文本分类 文本聚类 将文档流分到已有的类中。 算法思路:计算文档向量Di与事件子集Ej类中心的距离DTij,判断距离Dtij是否小于事件子集Ej的类半径。 根据“物以类聚”原理,将本身没有类别的一组的文章或文本信息进行相似性的比较,将比较相似的文章或文本信息归为一个聚类簇。 算法思路:先用粗分类算法进行初聚类,然后用凝聚式层次聚类算法进行再聚类 P art 4 话题发现 舆论话题发现 01 02 03 热点分析 话题发现 话题跟踪 对于相同主题的话题,转载次数、帖子回复量和相同主题的贴数可以刻画话题热度。 热点词发现(基于词频,只考虑词语的流行性) 热点话题聚类(基于热点事件聚类) 识别某个已知话题的新闻报道。 目标:针对不断增长信息流,追踪某个给定事件主题,发现所有有关该主题的信息 P art 5 情感分析 舆情情感分析 舆情情感分析就是对人类的各种情感表达进行有效的分析与挖掘,识别出其情感趋向——高兴、伤悲,或得出其观点是“赞同”还是“反对”,甚至情感随时间的演化规律。 难度大,应用范围相对较局限。 P art 6 观点挖掘 舆情观点挖掘 目前研究重点在舆情的准确发现和分类归类方面(Part3、4),对于观点挖掘研究较少 P art 7 系统设计 系统设计模块 模块名称 功能 页面预处理模块 ①对文本进行分词处理,得到单词词性等信息 ②提取关键词,计算关键词权重 文本分类模块 ①加载分类模型进行文本分类 ②文本类型标注 文本聚类模块 ①加载文本关键词 ②关键词向量化 ③粗分类算法进行初聚类 ④凝聚式层次聚类算法进行再聚类 建立分类模型模块 为文档数大于阈值的聚类簇建立分类模型 卡方计算聚类所属事件模块 卡方计算所得聚类簇所属的已知类别 Thank You

文档评论(0)

wendan118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档