人工智能辅助的广播电视语音交互与智能字幕生成技术.pdfVIP

人工智能辅助的广播电视语音交互与智能字幕生成技术.pdf

TechnologyFrontier·技术前沿

引文格式：肖军.人工智能辅助的广播电视语音交互与智能字幕生成技术[J].北斗与空间信息应用技术，2025，12(6):64-66.

人工智能辅助的广播电视语音交互与

智能字幕生成技术

肖军

（江西省吉安八0二台，江西吉安343000）

摘要：本文聚焦于“人工智能辅助广播电视语音交互及智能字幕生成技术等”，并成功构建一个基于Transformer-

Transducer（一种专为流式语音识别设计的端到端模型）理论的实时语音识别和说话人分离模型，并且结合自然语言处理，

实现了智能字幕的生成和同步分发。经过仿真和实际测试，系统在标准的广播环境中展现出了卓越的性能：识别的准确率

（WAR）达到了平均97.2%，说话人分离准确率（SDA）为92.8%，平均延迟时间（L）为1.46s，而字幕的同步偏差（SSO）为

180ms。现场监测结果也进一步证明了该模型具有稳定性和可扩展性，各项指标符合新闻和综艺类节目实时制作需求。

关键词：人工智能；语音识别；智能字幕；广播电视

AI-AssistedTechnologiesforBroadcastTelevision:Real-TimeSpeechInteractionand

IntelligentCaptionGeneration

XiaoJun

(Jian802Tai,Jian343000,China)

Abstract:ThispaperfocusesonAI-assistedbroadcasttechnologies,specificallyreal-timespeechinteractionandintelligent

captiongeneration.AmodelbasedontheTransformerTransducerarchitecturewassuccessfullydeveloped,integratingreal-timespeech

recognitionandspeakerseparation.CombinedwithNaturalLanguageProcessing(NLP),itenablesthegenerationandsynchronous

distributionofintelligentcaptions.Simulationsandpracticaltestsconductedinstandardbroadcastenvironmentsdemonstratedexceptional

performance:WordAccuracyRate(WAR)averaged97.2%,SpeakerDiarizationAccuracy(SDA)reached92.8%,averagelatency(L)was

1.46seconds,andSubtitleSynchronizationOﬀset(SSO)was180milliseconds.Fieldmonitoringresultsfurtherconﬁrmedthemodels

stabilityandscalability,indicatingthatallmetricsmeetthereal-timeproductionrequirementsfornewsandvarietyshows.

Keywords:Artificialintelligence;Speechrecognition;Smartsubtitles;Radioandtelevision