CN120279910A 一种基于ai大模型的音响交互意图识别与智能决策方法 (张婧).docxVIP

CN120279910A 一种基于ai大模型的音响交互意图识别与智能决策方法 (张婧).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利申请

(10)申请公布号CN120279910A(43)申请公布日2025.07.08

(21)申请号202510645816.8

(22)申请日2025.05.20

(71)申请人张婧

G10L25/18(2013.01)

GO6F40/30(2020.01)

地址400030重庆市沙坪坝区渝碚路利得

尔大厦A栋14—5

(72)发明人张婧丁思睿

(74)专利代理机构安徽启迪铭芯知识产权代理

事务所(普通合伙)34335专利代理师黄亚飞

(51)Int.CI.

G10L15/22(2006.01)

G10L15/02(2006.01)

G10L15/16(2006.01)

G10L21/0232(2013.01)

G10L25/21(2013.01)

权利要求书2页说明书11页附图4页

(54)发明名称

一种基于AI大模型的音响交互意图识别与智能决策方法

(57)摘要

CN120279910A本发明公开了一种基于AI大模型的音响交互意图识别与智能决策方法,涉及智能语音交互技术领域,包括,通过声学传感器采集语音信号并进行降噪处理和声学特征提取,同时捕获文本指令进行语义分句和文本特征提取,将声学特征向量与文本特征向量拼接形成多模态数据包;基于强化融合特征向量检索历史记忆库生成记忆上下文向量,通过两阶段意图推理模型识别主意图类别并解析操作参数,输出结构化意图指令;对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估,修正异常参数后封装为可执行指令集。本发明通过频带能量占比与词项

CN120279910A

CN120279910A权利要求书1/2页

2

1.一种基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:包括,

通过声学传感器采集语音信号并进行降噪处理和声学特征提取,同时捕获文本指令进行语义分句和文本特征提取,将声学特征向量与文本特征向量拼接形成多模态数据包;

对声学特征向量和文本特征向量分别执行频带能量优选和TF-IDF权重筛选,通过注意力机制融合特征并叠加设备状态动态调整权重,生成强化融合特征向量;

基于强化融合特征向量检索历史记忆库生成记忆上下文向量,通过两阶段意图推理模型识别主意图类别并解析操作参数,输出结构化意图指令;

对结构化意图指令进行参数合法性校验、设备状态验证及安全风险评估,修正异常参数后封装为可执行指令集。

2.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:所述降噪处理包括以下步骤,

采集模拟语音信号并进行分帧处理,生成频谱矩阵;

基于改进型WebRTCNS算法分析频谱矩阵,计算实时信噪比估计值;

根据动态阈值规则映射实时信噪比估计值,并对频谱矩阵执行频域滤波,通过逆傅里叶变换重构去噪音频帧,生成纯净声学波形数据流。

3.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:所述声学特征提取包括以下步骤,

对纯净声学波形数据流分帧并进行快速傅里叶变换,计算功率谱能量分布,并执行非线性频率尺度转换,生成对数Mel频谱;

对连续多帧对数Mel频谱执行时间维度平均及归一化,构成声学特征向量。

4.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:所述文本特征提取包括以下步骤,

对原始文本字符串预处理后输入RoBERTa分句模型,生成分句概率分布序列并识别候选语义边界,生成语义单元序列;

提取语义单元首字符的RoBERTa词嵌入向量,通过层归一化生成标准化文本特征向量。

5.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:所述通过注意力机制融合特征包括以下步骤,

基于声学特征向量的频带能量占比生成声学特征优选掩码矩阵,筛选关键频带特征;基于文本特征向量的TF-IDF值生成二值掩码矩阵,筛选核心语义特征;

将关键频带特征作为查询向量,核心语义特征作为键值向量,计算注意力分数并进行优化,生成优化后的注意力图谱;

实时读取设备CPU负载及网络延迟数据生成调整因子,动态修正初始融合权重与优化后的注意力图谱融合,通过全局平均池化生成强化融合特征向量。

6.如权利要求1所述的基于AI大模型的音响交互意图识别与智能决策方法,其特征在于:所述生成记忆上下文向量包括以下步骤,

基于随机投影

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档