台语古诗朗诵系统-AssociationforComputationalLinguistics.PDF

台语古诗朗诵系统-AssociationforComputationalLinguistics.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
The 2018 Conference on Computational Linguistics and Speech Processing ROCLING 2018, pp. 184-198 ©The Association for Computational Linguistics and Chinese Language Processing 台語古詩朗誦系統 蔡育霖 黃兆湘 林川傑 國立臺灣海洋大學資訊工程學系 Department of Computer Science and Engineering National Taiwan Ocean University {yltsai.cse, cjlin}@.tw 摘要 本論文提出一個能用台語朗誦古詩的系統的建造方法。以台語朗讀古詩會碰到兩大問題, 一個是文讀音的挑選,尤其當一個字有多種讀音時;另一個問題則是變調的位置,台語 句中有大量變調的情形,全用本調唸會不自然而且無法聽懂。 在選擇讀音的策略上,我們採用了來自紙本台語字典所提供的資訊,包含了文白讀音以 及常用讀音等。選擇字典所提供的第一讀音就能達到89%左右的正確率。此外,我們也 嘗試統計各資料集的最常見讀音,搭配文讀音標記可達到96.44%的正確率。 變調位置會依句中字數而不同。分別以五言詩與七言詩統計各位置最常出現的本調或變 調情形,依此結果當判斷規則即可達到96.71%及95.60%的正確率。雖然我們也提出了 斷詞組合提供的特徵值,但僅在五言詩實驗中有微幅的提昇。 關鍵詞:古詩朗誦、文讀音、台語變調、台語字轉音 一、緒論 本土語言的研究越來越成為重要的課題。台語已被列入「國家語言法」草案之中,對於 台語的各種研究與推廣越會被受到重視。 目前已有許多台語處理相關研究,但是多是以生活口語型態的台語為主。包括國台語翻 譯系統 [1][2] 、台語朗讀系統 [3][4][5][6][7] ,語音辨識[8][9] 、台語輸入法[10]等等。由 於大部份的系統都在處理現代台語,我們有興趣開發一個能以台語朗誦古文的系統,可 用以推廣台語教學。雖然用台語朗誦古文時,只需將每個中文字以一個台語音讀出,但 仍有幾個課題需要先克服,包括選音、文讀音、變調等等問題,分別說明如下。 184 首先在市面上各式台語辭典中,許多中文字都對應有多種讀音,主要原因有三。第一是 文白讀的問題,許多中文字在平常口語對話中的讀音 (稱做「白讀音」) 與誦讀詩文時 所用讀音 (稱做「文讀音」) 不同,像「水」白讀為chui2 ,文讀為sui2 。第二是破音字, 若一個字在國語有多個讀音和語義,它在台語通常也會有不同讀音,像「為」在「因為」 中讀音為ui7 ,在「成為」中讀音為ui5 。第三則是腔調,例如「張」就有tiuN1 和tiouN1 兩種不同的腔調。 要解決文白讀問題,字典本身必須提供相關資訊。我們採用[2]的方法,將楊青矗的「國 台雙語辭典」裡收錄的中文字及其讀音繕打成電子檔,做為系統選音依據的單字音典。 這部字典提供了文白讀、漳泉各腔調的標記,適合本系統開發所用。 值得一提的是,在建立資料集的過程中,我們發現詩句中有不少中文字或是它們的古音 並沒有收錄在「國台雙語辭典」裡面。為了系統的完整性,我們參考了另一部出版於 1954 年、沈富進所著「彙音寶鑑」,將這些缺字或缺音加入,並加上h 標記其來源。未來會 試著將整本彙音寶鑑完整收錄。 但要解決破音字問題就不是很容易。目前常見解法是先將文本斷詞,多字詞發音可直接 參考字典,單字詞則必須進行語意解歧義,需要大型語料庫做為訓練語料。以上方案在 現代漢語較有可能找到資源,古漢語不論斷詞、訓練語料庫、語意資源都相對缺乏,更 不易找到台語資源,只能留待未來研究。 變調現象在台語發音中相當重要,因為用台語說出一句話時,裡面大部份的字都會變調, 只有句尾、名詞詞組結尾等字會讀做本調[2][4] 。但這也是現代漢語的研究結果,在古文 朗讀時變調位置是否與現代規則

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档