基于交互式注释及其应用的多层视频对象数据库.docVIP

基于交互式注释及其应用的多层视频对象数据库.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于交互式注释及其应用的多层视频对象数据库

基于交互式注释及其应用的多层视频对象数据库 摘要: 随着应用程序中视频内容的广泛使用,对于表现系统,能够轻易有效地处理视频文件是最关键性的。在这篇论文中,笔者提出一种能够充实视频内容的方式,还有应用于未来交互式TV服务的应用程序(ADTV)。 1.介绍: 由于有大量的视频内容都能通过卫星电视、有线电视、互联网获得,以多媒体的方式获得视频变的更加流行,特别是无线视频编辑系统和PC上的录影机(如VCR)。当使用这些应用的时候,我们知道,未经加工的视频数据是非常宏大的,他们不过是没有上下文信息或者是索引。结果,人们在取其所需的时候经历了不少困难。 在以后的TV节目中,每个框架上的附加信息都会被赋予EPG(电子节目菜单)。利用这些信息建立数据库是正常的,然而这些信息对于一个视频数据库来说通常是不够的。未来广播节目的大环境里,未被编辑加工的实时视频会比以往有更广泛的分布。呈现从这些实时视频中获取的附加信息,这仍将是个难题。 本文描述了我们致力于视频框架中对象(下文称“对象”)的研究。对象是独立于视频流的一系列区域,这是因为他们的时空特征很相似。直到今天,在自动对象程序分段方法上取得一定成果还是一项极具挑战性的任务,故该方法还不是很成熟。然而其中一些对象是可以分割的,进而以恰当的精确度跟踪。新建立的MPEG-4标准提出了一种新的基于对象的框架,从而使多媒体表现更加高效。 对于一些更有效的表现,构建一些基于对象的视频数据库是很必要的。但这么做并不容易,因为对象的自动索引通常都不是完整的。因此,我们提出了建立一个非全自动化的视频数据库,它应该是交互式的,例如人们可以给它注释。 本文来探讨实际视频资源对象中的自动构建方法。进而我们描述怎样构建上文提出的交互式系统的原型,用它来展示在该系统上,用户如何交互式地参与广播节目、如何获取图像及其他信息。 2.视频对象数据库 一般来讲,视频资源来源包括一系列的实际的视频剪辑,也就是连续镜头,和理论上的视频的片段,也就是镜头。视频数据是根据连续镜头分析的,在分解和对视频数据分类这个方面上已经做了很多努力。 连续镜头是由一连串的框架组成的。这些框架包括一系列地区,也就是视频对象。图1显示了一些物理特点和说明的不同分级, 不同等级的不同数据根应用程序的类型而运用。例如,一些程序的制作系统运用在对象级的数据,一些编辑系统必须要运用片段级的例如切分点的数据。 , 在我们的项目中,我们的重点研究那些在视频框架中具有时空连续性结构的视频对象。在最新发布的MPEG-4 标准中提出了一高效图象, 这个图像可以可以实现“视频对象”,即语义对象的分割,并且还可以进行以电子信息为基础的对象搜索常规资源。此外,MPEG-7标准规定了视频对象的描绘接口程序。 2.1视频对象设计 在本篇,我们将谈论的视频对象有如下三个数据特征以及各自的参数: Static: 颜色,密度,轮廓,优势 Dynamic: 位置,动力,变换,联系 Semantic: 描绘 然而,要想得到高度精确的数据是非常困难的,尤其是从普通的目标对象上,而不是特殊对象中。因此,我们认为,即使这种方法计算出的数据有错误,视频对象数据库也会把它们当作对象数据酌留,并且尽可能的做出恰当的改正。 我们提出在视频对象模型基础上建立视频对象数据库。该模型以Bounding Box、Motion Vector of centroid和Annotation描述。(如图2) 所有对象都有如下注释: V(oid)=(Bounding Box(t),Motion Vector(t)), (1) Bounding Box=(x,y,width,height) 其中: oid:系统标记的对象ID t:从启示到对象出现所用的时间 另外,Bounding Box and Motion Vector有时通过图像处理方法来计算,注释基本由用户来描述,只有极少情况是由系统自动提供的。 每个视频对象被如下描述: VO(oid)={(Vi(oid),Annotation i,j(oid))} 其中: i: 对象出现是发出的ID j: 每个对象所拥有的不同注释的ID 2.2 提问/取回功能 利用这种方法,我们利用动作和注释构建了一个视频对象数据库。该数据库使选择提问功能成为了可能。 例如,用一个简单的功能去选择已显示对象的信息;这是交互式TV的一个最基本的功能。如果用户显示的位置Pi被定义为(xi,yi,zi),该系统就能利用Pi提供出相应的Bounding Box和oid,(虽然在一些情况下会损失相应的对象信息)。 以之前的经验,系统会提供一个最近的Bounding Volume或者作为框架回应的一些信息。 以最新的案例来看,用户可以在诸多作为回应的对象中选择

文档评论(0)

yan698698 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档