电子科技大学数字信号处理课程设计钢琴音符识别.pdf

电子科技大学数字信号处理课程设计钢琴音符识别.pdf

2014 级数字信号处理课程设计报告 题目:钢琴音符识别 姓名:邱晨曦 学号: 2014010909008 答辩时间: 2016/12/9 一. 题目要求: (1) 播放和记录一段钢琴音乐中的音符; (2 ) 记录到音符以后,找到音符所对应的现代标准钢琴的钢琴键,并分析结果。 二. 课程设计思路: (1) 涉及到的知识点: 快速傅里叶变换、钢琴音频信号的时域和频域的特性、能熵比的概念、 频率校正、 频 率与音符的转换关系。 (2 ) 方案分析: A. 预处理部分: 1. 直接用 audioread 函数读出来的原始数据。 优点:准确率较高; 缺点:数据量较大,采样频率为 44kHz ,远大于奈奎斯特采样率。 2. 以 11kHz 的采样率重新采样,并转换为单声道。 优点:数据量小了很多,易于处理; 缺点:牺牲了部分的准确率,但对于音符的判断影响可以忽略。 B. 端点检测算法: 1 . 双门限法: 1. 计算短时能量(高门限)和过零率(低门限) ; 2. 选取一个较高的门限 T ,语音信号的能量包络大部分都在此门限之上,进行一 2 次初判,语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外; 3. 根据噪声能量, 确定一个较低的门限 T ,并从初判起点往左, 从初判终点往右搜 1 索,分别找到能零比曲线第一次与门限 T 相交的两个点,两点之间段就是用双 1 门限方法所判定的语音段; 4. 以短时平均过零率为准, 从低门限点往左右搜索, 找到短时平均过零率低于某阈 值的两点,为语音的起止点; 图 1:双门限法示意图 说明:算法中的阀值是根据实验过程调节的。 该算法在实际应用的过程中发现: 在语音信号频率分布较为集中的时候, 端点检测出来的 结果比较准确, 但当语音信号频率分布比较分散的时候, 很难通过控制固定的阀值来检测到 每个音符; 2. 自相关法: 由于两种信号的自相关函数存在极大的差异, 可以利用这种差别来提取语音端点。 根据噪 声的情况,设置两个阈值 T 和 T ,当相关函数最大值大于 T 时,便判定是语音;当相关函 1 2 2 数最大值大于或小于 T 时,则判定为语音信号的端点。 1 该算法同样存在当语音信号频率分布较广的时候,阀值比较难控制的问题。 3. 基于谱熵的端点检测: 基于谱熵语音端点检测方法是通过检测谱的平坦程度, 来进行语音端点检测的, 为了更好进 行语音端点检测, 采用语音信号的短时功率谱构造语音信息谱熵, 从而对语音段和噪声段进 行区分。检测思路: 1. 对语音信号进行分帧加窗; 2. 计算每一帧的谱能量; Y (k ) Y ( k ) 3. 计算出每一帧中每个样本点的概率密度函数 pn

文档评论(0)

1亿VIP精品文档

相关文档