网站大量收购独家精品文档,联系QQ:2885784924

数据可视化 第7章 多媒体数据的可视化.pptxVIP

数据可视化 第7章 多媒体数据的可视化.pptx

  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据可视化

多媒体数据可视化概述多媒体数据类型音频数据可视化图像数据可视化视频数据可视化第七章:多媒体数据的可视化

7.1多媒体数据可视化概述多媒体数据定义多媒体涵盖的媒体种类包括文字、图像、视频、语音等,多媒体数据即是由内容上相互关联的文本、图形、图像、声音、动画、活动图像等媒体的数据所形成的复合数据。

7.1多媒体数据可视化概述多媒体数据可视化多媒体数据可视化主要是指对多媒体数据的特征抽取在对多媒体数据进行可视化时,要满足其多样性特征多媒体数据特征抽取可以分为:文本特征抽取图形特征抽取声音特征抽取视频特征抽取

多媒体数据可视化概述多媒体数据类型音频数据可视化图像数据可视化视频数据可视化第七章:多媒体数据的可视化

7.2多媒体数据类型音频数据音频是一种重要的媒体,是声音信号的表示形式,属于听觉类媒体;音频常被当做“音频信号”或“声音”的同义语;音频数据也即声音数据音频数据内在特征可划分为三级:低层的物理样本级:采样频率、时间刻度、样本、格式、编码等;中间层的声学特征级:感知特征(音调、音高、旋律、节奏)和声学特征(能量、过零率、线性预测系数);高层的语义级:包括音乐叙事、音频对象描述和语音识别;

7.2多媒体数据类型图像数据图像是人们日常生活中最常见、应用最广的媒体,也是最容易创造的媒体数据;图像数据是指用数值表示的各像素的灰度值的集合;彩色图像通常用红、绿、蓝(red、blue、green,RGB)三个分量来表示;图像数据可视化主要特征:色彩、明暗、轮廓、场景

7.2多媒体数据类型图像数据视频数据是指连续的图像序列,其实质是由一组组连续的图像构成;视频数据可用故事单元、场景、镜头和帧来描述:帧:组成视频的最小视觉单位,是一幅静态的图像;镜头:由一系列帧组成,描绘一个事件或一组摄像机的连续运动;场景:由一系列具有相似性质的镜头组成,指同一环境下的同一批对象;故事单元:视频幕,将多个场景组织构成一个有意义的故事情节;帧、镜头、场景和故事单元对应文本数据中的字、词、句子和段落;

多媒体数据可视化概述多媒体数据类型音频数据可视化图像数据可视化视频数据可视化第七章:多媒体数据的可视化

7.3音频数据可视化音频数据特征音频特征主要分为帧层次上的音频特征和片段层次上的音频特征;帧层次上的音频特征频域能量:评判某一帧是否是静音帧,若该帧的频域能量达不到阈值,就认为该帧是“静音帧”;子带能量比:将频域划分为4个子带,各子带能量与频域能量的比值;频率中心:度量音频亮度的指标;带宽等指标:音频频域范围;

7.3音频数据可视化音频数据特征片段层次上的音频特征静音比例:一段音频片段中静音帧的数目占片段中总帧数的比例;子带能量比均值:基于“子带能量比”,计算片段中各子带能量比的均值;频谱流量:一个片段中相邻两帧之间频谱变化量的均值;

7.3音频数据可视化过零率、频谱中心和梅尔频率倒谱系数过零率是指一个信号符号变化的比率,即在每帧中,语音信号通过零点(从正变为负或从负变为正)的次数。这个特征已在语音识别和音乐信息检索领域得到广泛使用,是摇滚乐的关键特征。频谱质心是指声音的“质心”,又称为频谱一阶距,是按照声音的频率的加权平均值计算得出。频谱质心的值越小,表明越多的频谱能量集中在低频范围内。梅尔倒谱系数通常由10~20个特征构成的集合,可以用来简明地描述频谱包络的总体形状,对语音特征进行建模。

7.3音频数据可视化音频特征展示波形图声谱图过零率频谱质心梅尔频率倒谱系数

7.3音频数据可视化音乐节奏可视化通常包括音乐的响度和频谱的变化

7.3音频数据可视化音乐结构可视化通过音乐结构的抽象来达到一个视觉增强的效果弧图法采用首尾端点位于一维轴上的弧来表示重复的音乐结构,其宽度与重复序列的长度成正比,半径与匹配对之间的距离成正比;同弦法采用了数学家欧拉发明的二维三角坐标网络,对音乐结构进行可视化弧图法同弦法

多媒体数据可视化概述多媒体数据类型音频数据可视化图像数据可视化视频数据可视化第七章:多媒体数据的可视化

7.4图像数据可视化图像数据特征提取图像数据的特征可以分为底层视觉表达特征和高层语义特征。高层语义是经过人脑感知后产生的,现有的计算机程序还很难模拟这一点。对图像的处理一般都是通过提取底层视觉特征来反映图像的高层语义。图像的底层视觉表达特征又可以分为全局特征和局部特征:全局特征:颜色、纹理、边缘、形状;局部特征:视觉词袋通过对图像进行特征提取和描述,将一幅图像分割为一系列局部区域或者基本元素的集合,然后将这些区域或者基本元素构建成“单词袋”,统计它们出现的频率,最后用直方图的形式来表示;

7.4图像数据可视化基于相似性的图像集可视化基于相似性的图像可视化可以构造出带有层次的信息,从而支持对大规模图像集的浏览。基于相似

文档评论(0)

半路风景 + 关注
实名认证
文档贡献者

计算机、软件教育工作者,IT行业资深工作经验

1亿VIP精品文档

相关文档