- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于微博信息数据分析的研究综述
基于微博信息数据分析的研究综述
基于微博信息数据分析研究进行系统梳理,提出三大研究方法,即适于演化的微博信息的数据表达模型研究;基于谱聚类的适于微博信息的大规模数据集划分方法研究;基于多特征演化联合聚类的在线微博信息划分方法研究。数据表达模型微博信息数据分析微博是基于用户关系内部成员的心情共享与话题传输的媒介,此媒介拥有包罗万象的内容,其中最为典型的内容是,微博会员对社会现象的观点与立场,以及涵盖科技军事、娱乐八卦等讨论话题。所以,关于兴趣爱好的话题、焦点与热点的话题、舆情预警等方面的微博信息数据分析拥有广阔的研究前景。而对于研究前景实践的前提是建立标准的数据表达与数据类型划分的方法。一、适于演化的微博信息的数据表达模型研究在当今信息大爆炸的时代,从海量的信息提取精炼的有效信息,并分析出信息间的关联性是十分重要的。对于微博而言,一方面,从单纯的架构角度分析,微博是一种无结构的文本;但从信息与信息传输角度分析,微博的实质即为拥有广泛内容的结构化网络信息,信息的结构联系为分析信息间的关联性起到辅助性作用。另一方面,每条微博信息为一个文本片段(一段话或一句话),携带的信息量比较小,多条微博信息触及到多种话题且信息量小,这为信息的升华与分析增加了难度。通过以上两点分析可以看出,在微博信息中提取精炼的有效信息,不能套用传统的简单文本信息提取的方法。为此,对于要分类的微博信息,首先要进行预处理,从微博中收集短信息文本集,其中可以包含部分评论、观点描述等内容,去除标签后,进行中文语义、词性、词语分类的标注,并将禁用词删掉。经过预处理之后的短信息文本集中的每一个词需要用建构的数学模型加以表示,过去传统的文本类别划分基本利用向量空间模型表示法,模型构建的过程中多以关键词为首要特征,该方法比较简单、方便,但却容易引起高维稀疏问题且通常没有语义联系。所以,我们采用基于语义概念的表示方法,把传统的具体关键词抽象的映射到概念范畴,然后对原始的关键词的语义进行拓展,从而解决短信息文本集中文本数据分类中存在的概念的层次、一义多词、一词多义的问题。二、基于谱聚类的适于微博信息的大规模数据集划分方法研究层次方法是在众多聚类方法中的一种极其重要的聚类方法。它的基本思想是对数据进行递归分裂或合并,将数据集合划分为嵌套式的类谱系图类或层次结构。它具有下列优势:第一,建立在更合理的假设之上,考虑到了来自不同层次的变量信息和随机误差的多层线性模型,能提供更加有效的区间估计、更加精确的标准误估计和假设检验。第二,任何水平上测量的协方差运用多层线性模型可计算。例如,可以通过计算在总变异中不同水平变异占的比率,来确定不同水平对因变量的影响及影响程度程度,例如研究者可以探讨班级和学生的其他特征对因变量变异的作用到底有多大。还可以分析不同水平上变量之间的交互作用。第三,可以结合所得回归方程形式及数值,得出截距和斜率之间的相关关系,从而更好地解释自变量和因变量之间变化的规律。基于网格的方法是众多的聚类算法中比较常用的方法,被广泛用于空间数据离化等问题。它是以网格为单位学习聚簇,具有速度快、效率高、且能很好地处理高维数据的特点。该方法的缺点是过于依赖密度阈值的选择,并且因为整体构造拥有的是呈现出锯齿状聚簇边界,它不能精确地识别平滑边界曲面。基于网格的聚类算法,利用统一大小的网格划分问题的空间,数据的统计信息皆保存在每个网格中,最终以在网格上进行聚类操作达到目标。网格的数量远远小于数据点的数量,所以,在计算与分类过程中,运行速度非常快。网格的大小影响了整个指标的多少,进而决定了聚类的最终效果。网格聚类算法,运行速度以及计算速度主要由网格分割的时间决定,不是由数据集的大小来决定,所以,网格聚类算法适用于有限空间范围内的大量数据活高密度数据集中的处理,这是该方法的最大优点。三、基于多特征演化联合聚类的适于在线微博信息数据划分方法研究聚类是人类认知过程中一项比较重要的活动。数据的聚类分析,即对物理或抽象的数据进行汇总与分组,将测度指标一致或者性质相近的数据划分并组合成多个类的分析过程。数据的聚类分析在模式识别、统计、生态模型以及网络结构的架构建设等多个领域中都具有广泛的应用。在微博信息数据的划分中,文本聚类技术按照一定的关联性将微博信息的大量文本进行自动化归类。有助于微博会员能够更快更好的浏览与查找相关的信息。但是与结构化的数据信息不同的是,文本聚类技术是以半结构化或非结构化的文本性数据为数据处理对象,文本性数据的突出特点即为其稀疏性。基于微博信息数据的特殊性,文章尝试从不同阶段的聚类过程的入手,提取微博信息数据之间的关联性以及关系,并将其作为微博信息数据聚类过程的指导。在微博信息数据预处理阶段,Bag―of―words―Model模型是比较常用的一种表示方法。微博信息的每个词句或符
原创力文档


文档评论(0)