CN102937972B 一种视听字幕制作系统及方法（上海外教社信息技术有限公司）.docxVIP

下载本文档

1
0
约2.17万字
约 35页
2026-03-13 发布于重庆
举报

CN102937972B 一种视听字幕制作系统及方法（上海外教社信息技术有限公司）.docx

(19)中华人民共和国国家知识产权局

(12)发明专利

(45)授权

(10)授权公告号CN102937972B公告日2016.06.22

(21)申请号201210389708.1

(22)申请日2012.10.15

(73)专利权人上海外教社信息技术有限公司

地址200083上海市虹口区大连西路557号

3楼8354室

(72)发明人张云梯庄智象黄卫黄河张中良

(74)专利代理机构上海百一领御专利代理事务所(普通合伙)31243

代理人马育麟

(51)Int.CI.

GO6FG10L

G10L

17/30(2006.01)

15/26(2006.01)

15/14(2006.01)

(56)对比文件

CN101651788A,2010.02.17,

CN1870728A,2006.11.29,

US2002010916A1,2002.01.24,CN101382937A,2009.03.11,

审查员孙国辉

权利要求书4页说明书11页附图3页

(54)发明名称

一种视听字幕制作系统及方法

(57)摘要

CN102937972B本发明提供了一种视听字幕制作系统及方法，所述系统包括原始文本处理模块、注音模块、原始声音处理模块、强制切分模块、切分可信度评估模块、错误处理模块、字幕生成模块。本发明能自动处理原始文本，分割为限定长度的句子或短语；采用形近词替代等方法自动处理非登录词，建立多发音注音网络；将注音网络展开为隐含马尔科夫识别语音对齐网络，使用强容错隐含马尔科夫声学模型对文本自动对齐强制切分；通过语音识别技术对每个切分段的切分结果进行可信度评估，可很容易发现切分错误以便进一步处理；直接根据切分结果生成各种格式适用于各种设备的视听字幕文件。借此，本发明可在无人工干预或

CN102937972B

听苏务然

条船文本处短摸块丝齐块

原声卖处理模境弦分模块

切分可信度坪位校染

籍误处意樱块象成便块

CN102937972B权利要求书1/4页

1.一种视听字幕制作系统，其特征在于，所述系统包括：

原始文本处理模块，用于将输入的原始文本分词后按指定规则分割为合适长度的句子或短语，并将所述句子或短语发送到注音模块；

注音模块，用于处理所述句子或短语中的非登录词，然后通过查注音词典生成注音网络，并将所述注音网络发送到强制切分模块；

原始声音处理模块，用于将输入的原始声音处理成预定要求的声音流，并将所述声音流发送到强制切分模块；

强制切分模块，用于将所述注音网络切分为隐含马尔科夫识别语音的对齐网络，然后将所述声音流提取为特征流并在所述对齐网络对齐，并将切分结果输入到切分可信度评估模块；

切分可信度评估模块，用于通过语音识别对所述切分结果中每个切分段进行可信度评估得到切分可信度评估结果，若所述切分可信度评估结果达到预定值，则将所述切分结果直接发送到字幕生成模块，否则将所述切分可信度评估结果发送到错误处理模块；

错误处理模块，用于显示所述切分可信度评估结果，判断是所述原始文本有误还是所述切分结果需要人工微调，若所述切分结果需要人工微调则人工微调所述切分结果并发送到字幕生成模块，若是所述原始文本有误则人工修改原始文本后重新交由所述原始文本处理模块切分；

字幕生成模块，用于结合预定的字幕文件格式，将所述切分结果输出字幕文件；

其中，所述强制切分模块还包括：

声学网络生成子模块，用于将所述注音网络展开，并在词语间加入哑音，扩充为隐马尔科夫声学模型的声学网络，发送到隐藏状态序列搜索模块中；

特征提取子模块，用于将从所述声音流中逐帧提取音频，经过加窗处理后提取符合隐马尔科夫声学模型的声学参数，生成逐帧的所述特征流，发送到隐藏状态序列搜索模块中；

隐藏状态序列搜索子模块，用于将所述特征流与所述声学网络通过维特比算法进行对齐，并选取所述特征流所经过的声学网络节点为所搜索的隐藏状态序列，将隐藏状态序列搜索结果发送到切分结果生成模块；

切分结果生成子模块，用于从所述隐藏状态序列搜索结果中求出每个切分好的句子的起止位置Sn和En;

所述句子的起止位置Sn和En通过以下公式得到：

Sn=(An+Bn-1)/2*FD,En=(Bn+An+1)/2*FD;

其中，所述Sn和En的计算公

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN102937972B 一种视听字幕制作系统及方法（上海外教社信息技术有限公司）.docxVIP