- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC 语义模型—VSM 语义特征空间由各个声音的描述文档中的词汇支撑 VSM 用m×n的词—文档矩阵对于包含词汇t1,t2,…tm和文档d1,d2,…dn的声音描述文档集合建模 每一列代表一个文档,每一行代表一个词 词在各个文档以及整个集合中的权重用TF-IDF表示 TF取fij的二值形式bij,IDF取熵加权的方式 pij fij/gi ,gi为ti在集合中出现的次数,n为集合中的文档数 语义模型—LSI 通过将词—文档矩阵A向低维空间映射来获取词汇之间潜在的关系 采用SVD的方法 A USVT 只取前k个特征值 关于LSI的维数k的实验 当k升至50左右时,LSI的效果已经赶上VSM 在k等于70左右达到最大,分类错误率在VSM基础上降低50%左右 在k等于70到100之间,性能基本保持稳定 超过100后,性能开始缓慢下降 声学空间与语义空间的联系 双向检索 声音?语义/语义?声音 需要建立声学模型和语义模型之间的映射关系 依赖于训练集合中已知的声音及其语义描述之间的关系 在声学空间中,n个训练样本 声音 各有一个GMM,每个GMM对每个训练样本都有一个似然度,构成n×n的似然度矩阵 在语义空间中,每个声音的描述文档有一个LSI 或VSM 模型 。这n个模型之间的相似度也可以用n×n的矩阵来表示 观察发现上述似然度矩阵和相似度矩阵尽管有相似之处,但却是不同的,不能相互代替 需分别建立声学?语义和语义?声学的联系 声学?语义的联系 基本原理: 利用声学模型计算测试声音与各已知声音的相似度,根据最相似的已知声音的语义文档来描述测试声音 具体过程: 测试声音?MFCC?各GMM对该MFCC的似然度?似然度最高的语义文档 可将已知的n种声音聚类以建立测试声音与混合声音语义间的联系 采用汇合聚类策略 归一化的相似度侧度 聚类结束后,对所产生的层次结构中的所有非叶子节点,都要利用其中包含的所有声音训练一个GMM 聚合类用在所含子类的描述中出现频度最高的k个词描述 语义?声学的联系 基本原理:与输入的语义查询最相关的描述所对应的声音是最可能的查询结果 查询和描述之间的语义相似度可以通过LSI来计算 对未标注的声音数据库进行语义查询的两种方法 利用与语义查询最匹配的k个已知声学模型GMM计算未标注声音X的似然度 直接利用MFCC的点分布进行计算 在MFCC声学空间中,一段声音是一个点分布。可以直接利用各个点分布的质心之间的距离来估测它们之间的相似性,减小计算量 质心之间的距离可用马氏距离度量 音乐检索 是非语音音频检索的典型代表,社会需求十分旺盛 哼唱检索研究较早,已有一些系统推向了商用 语义检索是新兴的一种音乐检索形式 音乐中相关的基本概念 音乐语言的维度 音高 Pitch :声音的振荡频率,将440Hz的声音定为“A 音强 Intensity :与振动的幅度(能量)成正比,也叫响度 音色 Timbre :人们能够感知的与发音器官或器具的物理性质有关,独立于音高和音强的声音特性 音长 Duration :一个音所持续的时间长度 和声 Harmony :两个以上的声音按照一定规律同时发生形成的组合 节奏 Rhythm :一个声音序列的长短和强弱的变化 旋律 Melody :经过艺术构
文档评论(0)