- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于复杂网络可视化模型专题新闻演化研究
基于复杂网络可视化模型专题新闻演化研究
[摘 要] 本文是基于复杂网络的思想,根据card(1999)提出的信息可视化参考模型构建的专题新闻文本集信息可视化的概念模型和形式化模型,以温州动车事故专题新闻文本集为例,对专题新闻按照时间段分为三个时期,并对不同时期进行信息可视化分析,分析总结新闻演化过程。分析得出,随着时间的变化,新闻集中的关注点发生变化,而且关注点会逐渐变得分散,新闻的关注度也逐渐减少。
[关键词] 专题新闻; 信息可视化; 演化
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 24. 047
[中图分类号] G203 [文献标识码] A [文章编号] 1673 - 0194(2012)24- 0077- 02
1 引 言
随着计算机网络的出现,信息技术迅速发展,人类进入了信息爆炸的时代。信息爆炸的一个重要表现就是新闻信息飞速增加。新闻传播的更新速度和传播效率不断加快,这种加快导致新闻数量不断增大,各种信息非常分散。为了能快捷地了解新闻的演化过程,直观地观察信息之间的复杂关系,需要一门结合科学可视化、数据挖掘、图像技术、图形学、人机交互和认知科学等诸多学科理论或方法的新学科,这就是20世纪80年代末诞生的可视化技术。
复杂网络的主要思想是将真实系统中各部分之间的联系看作一个复杂网络,以网络的形式来抽象地描述真实系统中各部分之间的关系,强调系统结构的拓扑特征,从而使人们更好地了解现实世界系统的本质特征。一个典型的网络是由许多节点与连接节点之间的边组成的。节点代表系统中的实体,边则表示节点之间的作用关系。
2 复杂网络可视化模型
2.1 信息实体的提取
本文采用人工方式选择及提取新闻文本信息实体,按照专题新闻文本信息实体的定义和选择新闻文本信息实体的原则与方法可以将专题新闻文本中不同要素的信息实体按不同粒度提取出来,形成信息实体库。新闻文本信息实体之间的存在的各种关系,即信息实体之间形成的有意义的系统的联系,即为信息实体之间的联系。本文中两个信息实体出现在相同新闻文本中的新闻文本数量即为这两个信息实体之间的关联权重。
2.2 模型构建
可视化模型包??3个要素:信息实体、信息实体关联和信息实体网络。新闻文本信息实体的实质就是能代表新闻文本内容的基本信息单位。新闻文本信息实体关联也就是新闻文本信息实体之间形成的有意义的系统的联系。信息实体网络是由用户信息需求、信息实体和信息实体关联构成的。
通过数据变换从专题新闻文本集中提取信息实体,经过可视化映射过程,信息实体及信息实体关联转换为可视化的结构。最后进行视图变换利用可视化显示技术将所得的信息实体网络用直观的、易于理解的图形方式显示出来。
2.3 复杂网络可视化模型的分析
网络度是描述网络中某一节点连接其他节点程度的概念,定义文本网络中的度是与某个节点有联系的节点的总数,通过可视化结果分析,度大的节点出现在句子中的次数越多,则该词的重要程度越高,是文中的关键实体。
最短路径是用来测量网络结构中距离最好的方法,路径是由从一个节点到另一个节点的不重复边构成,与网络度和网络节点强度不同的是,它不仅考虑了节点的近邻节点,还考虑了间接节点。最短路径是衡量实体连通性好坏的标准,最短路径越短,实体节点在文章中起到的作用越重要。
聚类系数反映网络的紧密程度,整个网络的聚类系数是所有节点的聚类系数的平均值,聚类系数则反映文章内容的紧密程度。这项特征值的分析主要是对文本的内容进行评价,聚类系数越大,文本复杂网络的紧密程度越好,也就是文本内容在表述上更紧密与紧凑。
3 实证分析
本次收集的新闻文本报道时间从2011年7月23日20:34分至2012年4月13日8:05。本文利用谷歌快讯推送含有“温州”、“动车”关键词的新闻,共搜集到新闻总量为892条。由于样本量太大,进行了抽取。依照不同新闻时间抽取不同数量的新闻文本。本次抽取新闻共100条。
3.1 总体网络分析
利用UCINET将动车事故新闻文本集信息实体网络的关联矩阵转化为直观的信息实体网络图,如图1所示。灾后重建新闻文本集信息实体网络图直观地展示了所收集的100个灾后重建新闻文本中的主要信息。
在全局网中,度数排名前五的非时间关键词为:“温州”、“北京”、“国务院”、“温家宝”、“召开记者会”。
在全局网中,平均最短路径为1.019。表明全局网各节点之间的连贯性和凝聚力较好。
在全局网中,基于距离的聚类系数为0.990。聚类系数非常大,证明复杂网络的紧密程度较好。
3.2 演化分析
按照温州动车事故新闻文本数量的变化,把此事件分为3个部分,如图2所示,可是分为爆发期、转折期与平稳
文档评论(0)