CN114512118B 基于声音语谱图的智能分句方法、计算机装置及存储介质（澳门理工学院）.docxVIP

下载本文档

0
0
约1.1万字
约 18页
2026-01-20 发布于重庆
举报

CN114512118B 基于声音语谱图的智能分句方法、计算机装置及存储介质（澳门理工学院）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN114512118B(45)授权公告日2025.07.11

(21)申请号202210005950.8

(22)申请日2022.01.04

(65)同一申请的已公布的文献号申请公布号CN114512118A

(43)申请公布日2022.05.17

(73)专利权人澳门理工学院

地址中国澳门高美士街澳门理工学院(72)发明人柯韦许立文

G10L15/06(2013.01)

(56)对比文件

CN112669822A,2021.04.16CN112802498A,2021.05.14CN113160854A,2021.07.23审查员易婷

(74)专利代理机构珠海智专专利商标代理有限

公司44262专利代理师许为炳

(51)Int.CI.

G10L15/02(2006.01)

G10L25/18(2013.01)

G10L25/30(2013.01)权利要求书1页说明书6页附图3页

(54)发明名称

基于声音语谱图的智能分句方法、计算机装置及存储介质

(57)摘要

CN114512118B本发明提供一种基于声音语谱图的智能分句方法、计算机装置及存储介质，该方法包括：获取待分句语音数据，将待分句语音数据转化成待分句频谱图数据；根据待分句频谱图数据识别频谱静音段；获取频谱静音段之前第一预设时长的前置频谱和频谱静音段之后第二预设时长的后置频谱，将前置频谱和后置频谱组合成待识别频谱图；利用预设分类模型对待识别频谱图进行识别，确认频谱静音段的停顿类别；根据停顿类别对语音文件进行句子分割。应用本发明基于声音

CN114512118B

开始

获取待分句语音数据，将待分句语音数据转化成待分句频谱图数据S1

根据待分句频谱图数据识别频谐静音段S2

获取频谱静音段之前第一预设时长的前置频谱

和频谱静音段之后第二预设时长的后置频谱，

将前置频谱和后置频谱组合成待识别频谱图

利用预设分类模型对待识别频谱图进行识别，确认频谱静音段的停倾类别S4

根据停顿类别对语音文件进行句子分割S5

将分割得到的句子以预设格式存储S6

结束

CN114512118B权利要求书1/1页

1.一种基于声音语谱图的智能分句方法，其特征在于：包括：

获取待分句语音数据，将所述待分句语音数据转化成待分句频谱图数据；

根据所述待分句频谱图数据识别频谱静音段；

获取所述频谱静音段之前第一预设时长的前置频谱和所述频谱静音段之后第二预设时长的后置频谱，将所述前置频谱和所述后置频谱组合成待识别频谱图；

利用预设分类模型对所述待识别频谱图进行识别，确认所述频谱静音段的停顿类别；根据所述停顿类别对所述待分句语音数据进行句子分割；

其中，所述将所述前置频谱和所述后置频谱组合成待识别频谱图的步骤包括：在所述前置频谱和所述后置频谱之间增加第三预设时长的静音频谱，获得所述待识别频谱图。

2.根据权利要求1所述的基于声音语谱图的智能分句方法，其特征在于：

所述第三预设时长的取值范围为所述待识别频谱图中频谱总时长的1/5至1/4。

3.根据权利要求2所述的基于声音语谱图的智能分句方法，其特征在于：

所述第二预设时长是所述第一预设时长的三倍。

4.根据权利要求1至3任一项所述的基于声音语谱图的智能分句方法，其特征在于：

所述根据所述待分句频谱图数据识别频谱静音段的步骤包括：

当所述待分句频谱图数据中出现频率幅度小于预设值且持续预设时长时，则认为该频谱段为频谱静音段。

5.根据权利要求1至3任一项所述的基于声音语谱图的智能分句方法，其特征在于：

所述预设分类模型由卷积神经网络学习获得。

6.根据权利要求5所述的基于声音语谱图的智能分句方法，其特征在于：

所述卷积神经网络学习的步骤包括：

获取训练语音数据对应的频谱图数据；

对所述频谱图数据中所有的频谱静音段进行停顿类别标注；

获取频谱图数据中每一个的频谱静音段之前所述第一预设时长的前置频谱和所述频谱静音段之后所述第二预设时长的后置频谱组成训练频谱图；

利用卷积神经网络算法对所述训练频谱图进行模型训练，获得所述预设分类模型。

7.根据权利要求1至3任一项所述的基于声音语谱图的智能分句方法，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN114512118B 基于声音语谱图的智能分句方法、计算机装置及存储介质（澳门理工学院）.docxVIP