CN120279910A 一种基于ai大模型的音响交互意图识别与智能决策方法（张婧）.docxVIP

下载本文档

0
0
约1.89万字
约 34页
2026-01-19 发布于重庆
举报
版权申诉

CN120279910A 一种基于ai大模型的音响交互意图识别与智能决策方法（张婧）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120279910A(43)申请公布日2025.07.08

(21)申请号202510645816.8

(22)申请日2025.05.20

(71)申请人张婧

G10L25/18(2013.01)

GO6F40/30(2020.01)

地址400030重庆市沙坪坝区渝碚路利得

尔大厦A栋14—5

(72)发明人张婧丁思睿

(74)专利代理机构安徽启迪铭芯知识产权代理

事务所(普通合伙)34335专利代理师黄亚飞

(51)Int.CI.

G10L15/22(2006.01)

G10L15/02(2006.01)

G10L15/16(2006.01)

G10L21/0232(2013.01)

G10L25/21(2013.01)

权利要求书2页说明书11页附图4页

(54)发明名称

一种基于AI大模型的音响交互意图识别与智能决策方法

(57)摘要

CN120279910A本发明公开了一种基于AI大模型的音响交互意图识别与智能决策方法，涉及智能语音交互技术领域，包括，通过声学传感器采集语音信号并进行降噪处理和声学特征提取，同时捕获文本指令进行语义分句和文本特征提取，将声学特征向量与文本特征向量拼接形成多模态数据包；基于强化融合特征向量检索历史记忆库生成记忆上下文向量，通过两阶段意图推理模型识别主意图类别并解析操作参数，输出结构化意图指令；对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估，修正异常参数后封装为可执行指令集。本发明通过频带能量占比与词项

CN120279910A

CN120279910A权利要求书1/2页

1.一种基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：包括，

通过声学传感器采集语音信号并进行降噪处理和声学特征提取，同时捕获文本指令进行语义分句和文本特征提取，将声学特征向量与文本特征向量拼接形成多模态数据包；

对声学特征向量和文本特征向量分别执行频带能量优选和TF-IDF权重筛选，通过注意力机制融合特征并叠加设备状态动态调整权重，生成强化融合特征向量；

基于强化融合特征向量检索历史记忆库生成记忆上下文向量，通过两阶段意图推理模型识别主意图类别并解析操作参数，输出结构化意图指令；

对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估，修正异常参数后封装为可执行指令集。

2.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：所述降噪处理包括以下步骤，

采集模拟语音信号并进行分帧处理，生成频谱矩阵；

基于改进型WebRTCNS算法分析频谱矩阵，计算实时信噪比估计值；

根据动态阈值规则映射实时信噪比估计值，并对频谱矩阵执行频域滤波，通过逆傅里叶变换重构去噪音频帧，生成纯净声学波形数据流。

3.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：所述声学特征提取包括以下步骤，

对纯净声学波形数据流分帧并进行快速傅里叶变换，计算功率谱能量分布，并执行非线性频率尺度转换，生成对数Mel频谱；

对连续多帧对数Mel频谱执行时间维度平均及归一化，构成声学特征向量。

4.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：所述文本特征提取包括以下步骤，

对原始文本字符串预处理后输入RoBERTa分句模型，生成分句概率分布序列并识别候选语义边界，生成语义单元序列；

提取语义单元首字符的RoBERTa词嵌入向量，通过层归一化生成标准化文本特征向量。

5.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：所述通过注意力机制融合特征包括以下步骤，

基于声学特征向量的频带能量占比生成声学特征优选掩码矩阵，筛选关键频带特征；基于文本特征向量的TF-IDF值生成二值掩码矩阵，筛选核心语义特征；

将关键频带特征作为查询向量，核心语义特征作为键值向量，计算注意力分数并进行优化，生成优化后的注意力图谱；

实时读取设备CPU负载及网络延迟数据生成调整因子，动态修正初始融合权重与优化后的注意力图谱融合，通过全局平均池化生成强化融合特征向量。

6.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法，其特征在于：所述生成记忆上下文向量包括以下步骤，

基于随机投影

您可能关注的文档

文档评论（0）

aabbcc + 关注: 实名认证

文档贡献者

若下载文档格式有问题，请咨询qq1643702686索取原版

咨询Ta 进入空间

1亿VIP精品文档

更多 >

CN120279910A 一种基于ai大模型的音响交互意图识别与智能决策方法（张婧）.docxVIP