- 2
- 0
- 约4.3千字
- 约 4页
- 2023-04-12 发布于上海
- 举报
智能语⾳交互技术在媒体的应⽤和前景
核⼼阅读:对拥有内容优势的媒体⽽⾔,应当及时看到智能语⾳交互可能给信息传播带来的⾰命性影
响。从针对语⾳交互硬件的内容分发到技术赋能内容⽣产,语⾳这⼀物联⽹时代的重要⼊⼝值得媒体⾏
业提前布局。
“Hi, Siri!”随着2011年苹果公司的经典产品iPhone 4S获得巨⼤的商业成功,其搭载的智能语⾳助⼿也渐为
消费者所熟知。Siri的全称是Speech Interpretation Recognition Interface ,即语⾳识别与理解接⼝。这⼀
商⽤级软件拓展了⼈机交互的边界,使原本在科幻电影和实验室中的信息互动场景⾛进⽣活。
紧随其后,微软Cortana、⾕歌Assistant、亚马逊Alexa等智能语⾳助⼿纷纷⾯世,顺势诞⽣了微软
Invoke、Google Home、亚马逊Echo、苹果HomePod等智能硬件。硅⾕的软硬件巨头及电商领军企业纷纷
⼊局这场竞争。国内,阿⾥、腾讯、百度、科⼤讯飞等互联⽹企业的AI实验室都将语⾳交互作为重要布
局,通过开放平台战略寻求软硬件及内容合作,营造智能语⾳⾏业⽣态。
从技术发展史的⾓度看,智能语⾳交互将是⼈机交互在物联⽹时代的重要组成部分。⼈机交互的发展必
定以更多样的交互⽅式、更快的输⼊速度、更少的场景限制为表现,即机器更懂⼈的需求、⼈与⽹络⾃
由连接。
本质上,这场竞争是互联⽹巨头们对未来万物互联时代语⾳交互⼊⼝的争夺,裹挟着智能硬件、智慧家
居带来的绝佳商业预期,⾏业风⼝疾风劲吹。对拥有内容优势的媒体⽽⾔,应当及时看到智能语⾳交互
可能给信息传播带来的⾰命性影响。从针对语⾳交互硬件的内容分发到利⽤技术赋能内容⽣产,智能语
⾳交互技术与媒体天然存在多层级的合作可能,技术应⽤前景⼴阔。
语⾳交互的技术构成
智能语⾳交互技术是⼀项系统性⼯程,⼤致涉及语⾳识别、⾃然语⾔理解、对话管理、⾃然语⾔⽣成、
语⾳合成等技术及综合运⽤。其中⾃然语⾔理解、对话管理、⾃然语⾔⽣成的流程⼜被称为智能对话系
统,是整个智能语⾳交互过程的核⼼技术难点。
⽬前,实现智能语⾳交互的五⼤技术模块发展程度不⼀,且各有许多关键节点尚未突破,因此,真正能
⽤⾃然语⾔与⼈类实现⽆条件⾃由交谈并采取相应⾏动的语⾳系统尚未诞⽣。但经过数⼗年从理论到技
术的发展,特别是借助⼤数据深度学习等⼈⼯智能技术后,语⾳识别、语⾳合成、⾃然语⾔理解等模块
已有重⼤突破,并部分实现商业化应⽤。
可以说,语⾳交互技术初步实现了从规则指令到⾃然语⾔指令的进步,但距离⾃由交互尚有巨⼤的鸿
沟。现阶段基于机器学习的“闲聊机器⼈”多处在实验室阶段。
语⾳交互的技术应⽤
(⼀)市场参与者
尽管语⾳交互尚未完全成熟,但国内外互联⽹巨头都认为此项技术前景可期,并将其作为⼈⼯智能战略
的重要组成部分。软件⽅⾯,具备语⾳交互功能的智能语⾳助⼿成为核⼼产品,如苹果Siri、亚马逊
Alexa、微软⼩娜等。硬件⽅⾯,继搭载了智能语⾳助⼿的移动终端后,智能家电、智能车载终端也纷纷
增加了语⾳交互功能。此外,众多语⾳技术公司针对不同⾏业及场景提供了各类软硬件解决⽅案。
开放合作是这⼀市场的⾸要需求。事实证明,语⾳交互及⼈⼯智能技术应⽤的产业链极长,物联⽹的实
现绝⾮⼀家之⼒。⼤部分市场参与者都采取了公开SDK ,全⾯打造开放平台的发展战略。相反,有批评
者认为,正是因为苹果的保守导致Siri在这轮发展中落后于⾕歌、亚马逊、微软等公司的竞品。
技术应⽤的本地化是另⼀个问题。尽管亚马逊在炙⼿可热的智能⾳箱领域占有先机,但因语⾔环境的特
殊性,本⼟企业在竞争中具有很⼤优势。BAT、科⼤讯飞等⼤型互联⽹企业整合产业间资源,基本构建
起开放平台,率先布局;思必驰、出门问问等语⾳技术公司专注于解决⽅案等B端业务;传统⾳箱与硬
件制造商、内容及服务供应商纷纷⼊局。
(⼆)典型应⽤场景
⽬前,商⽤的智能语⾳交互以语⾳唤醒+服务响应为主,部分产品⽀持多轮对话,基本实现了5⽶远场识
别、连续语⾳和命令词识别、上下⽂语义理解等关键技术。主要应⽤场景包括移动终端、智慧家居、车
载语⾳系统、其他⾏业解决⽅案
命令词识别、上下⽂语义理解等关键技术。主要应⽤场景包括移动终端、智慧家居、车载语⾳系统、其
他⾏业解决⽅案等。
1.移动终端与可穿戴设备
2011年,苹果最早推出了搭载Siri的智能⼿机。随着微软、⾕歌、亚马逊等公司的⼊局,⼿机、平板、笔
记本电脑、⼿表等可穿戴设备普遍内置了智能语⾳助⼿。除了设定闹钟、查询天⽓等官⽅开发的技能
外,语⾳助⼿已兼容第三⽅应⽤,如⽤Siri ⼝述发送微信等。
但⼿机端语⾳助⼿在使⽤习惯上⾯临两⼤质疑:
原创力文档

文档评论(0)