广播语料语音辨认 - Association for Computational Linguistics.PDF

广播语料语音辨认 - Association for Computational Linguistics.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
广播语料语音辨认 - Association for Computational Linguistics

國語廣播新聞語料轉述系統之效能評估 Evaluation of Mandarin Broadcast News Transcription System 張隆勳、王逸如、陳信宏 國立交通大學電信工程系 摘要 在本論文中,使用國內自行錄製的國語廣播新聞語料庫,MATBN,製作一個基本 的語音辨認系統以評估在國語廣播新聞環境下之國語語音辨認效能。在論文中所使用 語音辨認器之聲學模型為 100 韻母相關之聲母及 40 個韻母模型,另外也為particles及超 語言現象製作了聲學模型。在語言模式方面,論文中使用六萬詞之國語詞典及其雙連 文模型;同時在論文中還加入了最簡單的韻律資訊-音節間靜音長度模型以期提升辨 認器效能及詞、語句邊界的正確率。最後,對國語廣播新聞語料中的三種不同語者環 境-主播、外場記者及受訪者,分別得到 86.9%、76.4%及 48.5%的詞辨認率。 一、 簡介 在 1995 年世界四個做語音辨認研究的著名單位(BBN, CMU, Dragon 及 IBM)開始參與一個在 當年是一項創舉的語音辨認評比之語音資料庫建立工作,該語音資料庫稱做 Hub-4,在此項評比 中希望能做到廣播新聞語料自動轉述(automatic broadcast news transcription)[1]。Hub-4 語料庫中也 已陸續加入許多語料,事實上 Hub-4 語料庫中也已經有國語廣播新聞語料,其內容是由大陸中央 台及洛杉磯中文台的廣播新聞節目錄製而成。由 1999 年 DARPA 所舉辦的語音辨認評比的結果 可以看出世界各大語音辨認研究單位在廣播新聞語料自動轉述已獲得重大的進展;不只在語音辨 認方面,在 segmentation、information extraction、topic detection 等技術都有許多成果。在英文廣播 新聞語料語音辨認方面,在 DARPA Broadcast News (Hub-4) Evaluation [2]的 F0 評比項目 - 其訓 練及測試環境是僅考慮無環境雜訊、背景音樂及無外國口音語者的廣播新聞語料,其語音辨識率 已可達 7.8% 的詞錯誤率(word error rate, WER);而在 F1 評比項目 - 其訓練及測試環境是 F0 再 加上自發性廣播新聞語料(spontaneous speech),也就是考慮了有不流利現象 (disfluencies) 的語 料,其辨認結果也可達 14.4% 的詞錯誤率[2]。在國語廣播語料語音辨認部分,Dragon 公司在 1998 年發表的辨認結果可達 36%的詞錯誤率及 25%的字錯誤率(character error rate, CER)[3]。 在國內則從 2001 年起由台大、中研院、清大、成大及交大五個學術單位,在國科會的補助 感謝中研院王新民博士在MATBN語料庫標示內容上之協助及台師大陳柏琳教授所提供之詞典 。 1 下開始了一項為期三年的國語廣播語料蒐集計畫。其中之一部分為蒐集國語新聞廣播語料庫 (MATBN, Mandarin Across Taiwan – Broadcast News)[4,5],三年計畫中共蒐集並轉述了 198 個小時 的國語廣播新聞語料。這個國語新聞廣播語料,MATBN,現在正要由國科會技轉到語言學會中。 二、 國語新聞廣播語料庫(MATBN) MATBN 計畫中所錄製的是「公視新聞深度報導」和「公視晚間新聞」兩個國語新聞廣播節 目之內容,每次節目進行長度一個小時,錄製與處理標記共分三年進行,從 2001 年 11

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档