- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于特征空间轨迹移动匹配算法的字母数字串的模式识别
基于特征空间轨迹移动匹配算法的字母数字串的模式识别
钱俊宏
(上海交通大学网络教育学院计算机科学与技术专业)
摘要
语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一.语音识别是一门交叉学科,它结合了声学、数学、物理、计算机等学科中的主要技术。语音识别正逐渐成为信息技术中解决人机交互的新的方法。语音识别技术和语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作语音技术的应用已经成为一个具有竞争性的新兴高技术产业.
关键词识别(KWS)是语音识别研究中的一个重要领域,其目的旨在从连续语音中检测并确认给定的若干个特定词。关键词识别与连续语音识别(CSR)的主要区别在于对输入语音的限制。相对于KWS,CSR资源耗费大,速度慢,抗噪能力不强,这是CSR短时间内难以取得突破的问题所在。而KWS允许在嘈杂的环境中使用,可以通过诸如电话线等质量较差的信道。因此,许多应用领域不适合使用CSR,而要求使用KWS.
本文的主要内容为:基于特征空间轨迹移动匹配算法,找到一个高效的关键字的匹配算法来实现语音关键字检测的高性能化.
关键词:特征轨迹、关键字识别
一、语音识别的基本思路:
第一步:将输入的语音先分帧,然后将每帧从时域转化为频域,从而得到在时域上的一个频域集合F(n),将每个F(i)提取特征Ci(x1,x2,….,xj)组成一个n*j的矩阵,为简单期间只取x1,x2两个特征,在特征空间x1-x2中画出各点,按照时间顺序连接各点,组成了特征轨迹。
第二步:时间规整化
基本原理
设R为标准模式,X为测试模式,两者均为P维特征矢量的时间序列。即:
R:R(t) = ( R1(t), R2 (t), …, RP (t) )T;(0≤t≤Tr)
X:X(t) = ( X1(t), X2 (t), …, XP (t) )T;(0≤t≤Tx)
如图timewarp所示,DTW的基本概念是通过寻找一个时间伸缩函数tr(tx),该函数将测试模式X的时间轴tx非线性地映射到标准模式R的时间轴tr上,并使X与R的相对距离为最小。由此可见,对同一字(词)的语音而言,在理想情况下,即除时间轴的变动因素之外,如果没有其它什么变动因素的话,则X与R的相对距离应为零。即: (1)
另一方面,从数学的角度来看,X(tx) (0≤tx≤Tx) 和R(tr)(0≤tr≤Tr)也可以看作是对应在P维特征空间中的两条轨迹(Trajectory)。显然,当X(tx)和R(tr)满足式(4.9)时,这两条轨迹是完全重叠的。
设sx = sx(tx)表示沿着X(tx)的轨迹从始点到达tx时的轨迹长,dsx表示这条轨迹的微小线段,则有:
(2)
若dsx/dt>0,则可求得式(4.10)的逆函数,即: (3)
此时,若考虑沿轨迹提取新的特征点X’(sx)的话,则可根据式将X’(sx)定义为:
(4)
同样,可定义R’(sr)为:
(5)
根据式,则有: (6)
根据轨迹的不变性,sx = sr (= s),所以,可将式改写为:
(7)
式即表示,在理想的情况下,对同一字(词)音的两个特征矢量X(tx)和R(tr),按相同的轨迹长s沿其各自的轨迹所提取出的新的特征矢量X’(S)和R’(S)具有对时间轴伸缩的不变性,这也就是基于特征空间轨迹对语音模式进行时间轴规整的基本原理。
. Time Warp示意图 基于轨迹的时间规整化示意图
因此,如上图所示,为了获得不受时间轴伸缩影响的语音特征矢量,可将语音轨迹总长分成n-1等分,然后沿该轨迹重新取样,重新取样后的n个的特征点就成为时间规整化后的特征矢量。由于经时间规整后的特征矢量可采用线性匹配,故可大幅度地减少运算量。
数据结构:
typedef struct Tnode//图三
{
char Value;//识别出的英语或数字
int Ln;//识别出的英语或数字在该待测语音特征轨迹中的最左X1值
int Rn;//识别出的英语或数字在该待测语音特征轨迹中的最右X1值
*struct Tnode L;//指向左面的节点
*struct Tnode R;//指向右面的节点
}node
初始时:P、R都是指向二叉树结点的指针,R指向根节点,初始时P=R。
Step1:将各个摸板在待测轨迹上移动匹配,对每个摸板在同一起始点上的线性匹配结果将较小的值记入矩阵,同时将该摸板的值记入矩阵。
Step2:从所得
文档评论(0)