- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NAS:一个可视化的视频新闻资料分析系统
肖鹏 吴玲达 老松杨 谢毓湘
(国防科学技术大学人文与管理学院氏沙410073)
摘要:NAS(News—videosystem)以挖掘新闻故事之间隐含的信息为目的,首
Analyzing
先对新闻视频进行了内容提取、分析和统计,然后在此基础之上给出了两种新的可视化
形式:时间趋势图和时空分布图。时间趋势图反映出态势的发展,时空分布图则综合反
映出事件之间在时间和空间上的关联。这两种方式将对决策者全面掌握态势提供很大的
帮助。
关键词:视频新闻:数据挖掘;可视化
中图分类号:TP39文献标志码:A
1介绍
随着传媒技术的发展,电视新闻正以前所未有的速度深入人们的生活。新闻节目几
乎占据了所有电视台的黄金时间,新闻节目的内容也越来越丰富,从国际风云到百姓生
活,从街坊趣闻到异国风情,几乎包罗万象。新闻视频越来越成为人们获取信息的重要
渠道,许多新闻数据库应运而生。新闻数据库采集整理各种新闻节目,并将他们归类存
储,形成一种珍贵的历史资料。但是,随着新闻数据库规模的增大,人们检索时也许会
发现:虽然可以轻易查到相关信息,但有用信息却相对越来越少了。这是因为查询结果
往往是大量支离破碎的独立新闻片段,难以发现它们之间的内在联系,难以得到对某个
新闻事件的整体认识。比如,对刚刚结束的美伊战争,新闻数据库中可能会查出成千上
万条记录,但是如果只依据这些线性罗列的检索结果,很难看出这场战争的来龙去脉。
而现实中,决策人员往往关心的正是某个新闻事件的整个过程以及今后的发展态势,这
样的线性检索显然不能满足需求。由此看出,有必要对现有的新闻数据库进行更有效的
组织和挖掘。
本文以挖掘新闻故事之间的隐含信息为目的,提出了两种可视化辅助挖掘的方法:
一种是基于新闻故事之间的时间关联的时间趋势图,在该图中,用户可以直观地看出一
系列新闻故事之间的时间关系,从而了解该新闻事件发展的经历和趋势;另一种是结合
新闻故事之间的地理位置关系和时间关系的时空分布图,时空分布图集时间信息和空间
信息于一体,以多维的形式将新闻故事的要素集中呈现。在NAS系统中,我们首先对
新闻视频进行了内容提取,在此基础上计算出一段新闻故事的重要度指标,并依据新闻
作者简介:肖鹏,男,(1980-)硕士研究生,主要研究方向为视频内容分析与基于内容的检索(Email
(1968一),副教授,主要研究方向为多媒体信息系统。谢毓湘,女(1976-)博士,主要研究方向为
多媒体信息系统。
发生的时问和位置进行统计,最后给出可视化的用户交互接口。
文章的第二一、=、凹节分别描述了可视化表现视频数据的三个步骤
结和展望。
2数据准备
数据准备是数据挖掘的第步,而且在视频数据挖掘中显得尤为重要。因为视频数
据不同于普通数据库、文本、wEB数据等其它数据挖掘对象,它是一种流式的、非结构
化的数据,而目.视频中的信息不能为计算机所直接理解。因此,需要在数据准备阶段对
视频进行结构化和内容提取,使之变成能被挖掘算法所“识别”的信息。本系统中的数
据准备阶段分为以下几步:
2 1新闻故事单元切分
新闻故事单几是人们理解新闻内容的基本单位,而新闻数据库中往往是以一次新闻
节目为基本单位来存放视频文件的。这就要求我们必须首先切分新闻故事单元。现有的
新闻故事切分方法主要有基于口播帧模板的【11]和基于静音的。而我们采用了~种先对
所有镜头进行聚类,然后选取平均时间距离最大的类的方法【3】,准确地获取了u播帧类。
这种方法不依赖于模板,也不依赖于阈值,具有广泛的适用性。
22新闻故事来源分析
新闻故事的来源,是衡量一则新闻重要程度的有力依据,而这些信息在以往的新闻
视频处理中往往被忽视。一般而言,来自中央电视台的新闻比地方电视台的新闻更加重
要,黄金时间播出的新闻比~一般时间播出的重要,重复播放的新闻比只播放一次的重要,
多家电视台播放的比只出现在一家电视台的重要。在同一次新闻节目中播出的新闻,也
有轻重主次之分:头条新闻显然比末条重要,播放时间长的新闻比短小的新闻更加重要。
因此,我们有必要将新闻故事的播出时间、持续时间、播出次序等信息提取并保存F来,
这些信息在后续的新闻故事重要度评判中将发挥作用。
此外,我们还在系统中引入了“新闻副本探测”。所谓“新闻副本”(Duplicate),
就是指以不同的形式出现在不同的电视台上的同一条新闻。“新闻副本”不同于摘录的
新闻,摘录
文档评论(0)