- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN114420097B(45)授权公告日2025.07.01
(21)申请号202210080156.X
(22)申请日2022.01.24
(65)同一申请的已公布的文献号申请公布号CN114420097A
(43)申请公布日2022.04.29
(73)专利权人腾讯科技(深圳)有限公司
地址518000广东省深圳市南山区高新区
科技中一路腾讯大厦35层
(72)发明人彭博
(74)专利代理机构深圳市联鼎知识产权代理有限公司44232
专利代理师徐明霞
(51)Int.CI.
G1OL15/02(2006.01)
G1OL15/06(2013.01)
G10L15/16(2006.01)G10L25/30(2013.01)
G10L25/78(2013.01)GO6N3/0464(2023.01)
GO6N3/048(2023.01)
GO6N3/082(2023.01)
GO6N3/084(2023.01)
(56)对比文件
CNCN
CNCN
110782908
111243619
A,2020.06.05
审查员陈丽锋
权利要求书4页说明书17页附图7页
(54)发明名称
语音定位方法、装置、计算机可读介质及电子设备
(57)摘要
CN114420097B本申请属于人工智能技术领域,具体涉及一种语音定位方法、装置、计算机可读介质及电子设备。该方法包括:获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点。本申请能够精准定位语
CN114420097B
S210
获取语音信息,对所述语音信息进行处理以获取与
所述语音信息对应的频谱信息,其中所述语音信息
包括背景音和主语音
S220
将所述频谱信息输入至语音识别模型中,通过所述
语音识别模型对所述频谱信息中的主语音进行识别
,以获取主语音信息,所述主语音信息包括主语音
概率曲线
S230
根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点
CN114420097B权利要求书1/4页
2
1.一种语音定位方法,其特征在于,包括:
获取语音信息,对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,其中所述语音信息包括背景音和主语音;
将所述频谱信息输入至语音识别模型中,通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,所述主语音信息包括主语音概率曲线;所述主语音概率曲线上各点为所述语音信息中对应时间点存在所述主语音的概率;
根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点;
其中,所述根据所述主语音概率曲线中的局部极值点,确定所述主语音在所述语音信息中所对应的起止时间点,包括:
根据所述主语音概率曲线中任意两个相邻波谷,将所述主语音概率曲线划分为多个主
语音区间;
获取各所述主语音区间中的局部极值点,将极大值点对应的时间点标记为所述主语音的起始时间点,并将极小值点对应的时间点标记为所述主语音的终止时间点。
2.根据权利要求1所述的方法,其特征在于,所述频谱信息为梅尔频谱图;
所述对所述语音信息进行处理以获取与所述语音信息对应的频谱信息,包括:
对所述语音信息进行分帧和加窗,并对加窗后的所述语音信息进行傅里叶变换,以获取与所述语音信息对应的声谱图;
通过梅尔尺度滤波器对所述声谱图进行滤波处理,以获取所述梅尔频谱图。
3.根据权利要求1所述的方法,其特征在于,所述语音识别模型包括卷积网络模块、特征增强网络模块、长短期记忆网络模块和分类预测模块;
所述通过所述语音识别模型对所述频谱信息中的主语音进行识别,以获取主语音信息,包括:
通过所述卷积网络模块对所述频谱信息进行分段特征提取,以获取多个频谱特征图;
通过所述特征增强网络模块对各所述频谱特征图进行下采样后上采样并反向回传,以获取与各所述频谱特征图对应的频谱增强特征图;
通过所述长短期记忆
您可能关注的文档
- CN113404595B 燃气涡轮发动机及其操作方法 (通用电气公司).docx
- CN113448267B 用于制备食物的厨房系统及其操作方法和计算机程序产品 (德国福维克控股公司).docx
- CN113449548B 更新物体识别模型的方法和装置 (华为技术有限公司).docx
- CN113473106B 图像传输方法、图像显示及处理设备、及图像传输系统 (青岛小鸟看看科技有限公司).docx
- CN113488465B 半导体器件结构、半导体器件及其形成方法 (台湾积体电路制造股份有限公司).docx
- CN113489486B 片内晶振校准电路及校准方法 (青芯半导体科技(上海)有限公司).docx
- CN113525385B 一种车辆行程能耗的预测方法及装置 (株式会社日立制作所).docx
- CN113534543B 一种灌晶系统及灌晶方法 (麒麟电子(深圳)有限公司).docx
- CN113661249B 用于分离无细胞dna的组合物和方法 (夸登特健康公司).docx
- CN113687811B 一种音频信号输出控制方法及显示设备 (Vidaa(荷兰)国际控股有限公司).docx
最近下载
- Q-CR-9265-2025 铁路隧道全工序机械化设计施工技术规程.pdf VIP
- 奶茶介绍幻灯片.ppt VIP
- 建筑结构选型18_膜结构-课件.ppt VIP
- 第四章 艺术与服饰艺术创作(课件)- 《服饰美学》同步教学(纺织出版社).pptx VIP
- 第三章 美与服饰美的种类(课件)- 《服饰美学》同步教学(纺织出版社).pptx VIP
- 议论文高考作文范文.docx VIP
- (一模)芜湖市2024—2025学年度第一学期中学教学质量监控 语文试卷(含答案).docx
- 江苏省徐州市睢宁县2021-2022学年八年级上学期期末数学试题【含答案】.pdf VIP
- 2025年机器视觉技术基础教学教案(全).pdf VIP
- LD128E(Q)II火灾报警控制器(联动型)安装使用说明书.pdf
原创力文档


文档评论(0)