网站大量收购独家精品文档,联系QQ:2885784924

社区分析概述.ppt

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
社区分析概述

背景技术 背景技术 话题研究-话题发现 话题发现统一研究框架 话题研究-话题发现 传统话题发现方法(单遍聚类算法) 算法的主要思想是根据主题获取的先后顺序,与已有的话题库中的话题进行比较,从而判断主题属于哪个话题。 1) 对主题N进行预处理,进行基础过滤和处理,通过对主题进行特征分析,来计算N的特征项权值,并建立N的特征项向量空间模型。 2) 将主题和系统中已经存在了的话题集合进行相关度比较,找到和主题最接近的话题: ,其中n为当前话题数目。 3) 如果 ,那么将主题的特征建立成一个新的话题,并更新话题集合。 4) 如果 ,则认为主题是属于话题的一个主题,并将加入到话题的集合中。 5) 重复上述步骤,直到所有的主题处理完毕。 其中μ为相关阈值,是界定主题和话题相关度和归属关系的值 话题研究-话题发现 话题发现的主要技术 1 表示模型 为主题和话题建立表示模型是话题发现中最基础的问题。主要包括特征选取、特征度量以及模型本身的改进等。 (1)向量空间模型 向量模型的特征选取是—个逐渐细化的过程。 首先,抽取主题内容,按属性用向量表示内容。 然后,根据主题内容中的文本,抽取实体词,进行向量表示。 最后,对主题中文本分析得到的时间、地点、任务等特征词用不同向量分别表示,也可根据词性进行划分。 (2)概率模型 概率模型主要包括语言模型和相关模型。面对稀疏问题,语言模型用背景语料进行参数平滑,相关模型用背景语料中的主题相关报道进行信息扩充。 话题研究-话题发现 话题发现的主要技术 (3)词汇链 词汇链由一系列词义相关的词组成,最初被用于分析文本结构,帮助鉴别文本中心观点。社区话题发现中构建词汇链通常借助一些语言资源中已有的词间关系来进行分析。但这种关系不依赖具体的社区主题,不能体现社区主题的内部真实的关联信息。它是划分特征集的一种方式。 (4)图模型 图模型最能体现新闻报道内容和结构,也最难构造。它关键在于含有其他模型经常忽略的关联特征,用结构图而非集合来表示文本,符合“社区话题以事件为中心、多人参与并向多个侧面发展”的特点。 话题研究-话题发现 话题发现的主要技术 2 相似度计算 相似度计算和表示模型关系密切,需要结合模型本身特点并充分利用表示模型的内容。 (1) 向量空间模型的相似度计算 向量模型为每个文档都建立等长向量表示。向量间相似度是相同维度特征相似度的总和,计算方法有很多种,如Okapi公式、clarity、Hellinger、Tanimoto、WeightSum等,其中余弦相似度最常用,也最有效。 (2) 概率模型的相似度计算 语言模型下的生成概率计算。 相关模型下的概率分布差异度量。 (3) 词汇链的相似度计算 和向量模型计算相同 (4) 图模型的相似度计算 利用图论知识,度量图问距离,来计算相似度。 话题研究-话题发现 话题发现的主要技术 2 相似度计算 相似度计算和表示模型关系密切,需要结合模型本身特点并充分利用表示模型的内容。 (1) 向量空间模型的相似度计算 向量模型为每个文档都建立等长向量表示。向量间相似度是相同维度特征相似度的总和,计算方法有很多种,如Okapi公式、clarity、Hellinger、Tanimoto、WeightSum等,其中余弦相似度最常用,也最有效。 (2) 概率模型的相似度计算 语言模型下的生成概率计算。 相关模型下的概率分布差异度量。 (3) 词汇链的相似度计算 和向量模型计算相同 (4) 图模型的相似度计算 利用图论知识,度量图问距离,来计算相似度。 话题研究-话题发现 话题发现的主要技术 3 基于相似度的组织方式 组织相似度是社区话题发现的重要组成部分,不仅体现出整体算法的差异,对发现性能也会有较大影响。 从实现的任务考虑,话题关联识别和话题追踪通常相似度直接与阈值比较,新事件发现和话题发现则多采用KNN组织方式; 从改进系统性能考虑,对社区主题包含信息的粒度进行划分,采用“主题-话题-事件”逐渐细化,用相似度分层聚类。其他的组合方法:支持向量机、投票方法、决策树等。 话题研究-话题发现 目前研究的主要待解决问题 (1)忽略了社区主题的评论分析。 (2)忽略了社区主题之间的关联性。 (3)忽略了社区主题的主体行为(用户) (4)许多主题间的重复、相互引用的关系研究 (4)目前还没有效率和精确度都较高的整体算法。 话题研究-话题排序 话题的排序具有重要的应用价值和理论意义。面对庞大的互联网信息,最重要、最热门、最新潮的话题是用户的首选。排序技术是Web挖掘领域

文档评论(0)

jgx3536 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档