声符部件排序与形声字发音规则探勘PronunciationRulesDiscovery.PDFVIP

声符部件排序与形声字发音规则探勘PronunciationRulesDiscovery.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
声符部件排序与形声字发音规则探勘PronunciationRulesDiscovery

聲符部件排序與形聲字發音規則探勘 Pronunciation Rules Discovery for Picto-Phonetic Chinese Characters 張嘉惠 Chia-Hui Chang 國立中央大學資訊工程學系 Department of Computer Science and Information Engineering National Central University chia@.tw 林書彥 Shu-Yen Lin 國立中央大學資訊工程學系 Department of Computer Science and Information Engineering National Central University 985202041@.tw 摘要 近年來台灣有相當多的新移民的加入,這些新移民在口語的學習上雖然有地利之變,但 是在漢字的認識上則是相當弱勢 。由於漢字乃是圖形文字 ,學習單一字的成本相對的 高。如果可以讓漢字教一個字,可以學到十個字,對於漢字教學的成效應有相當的助益。 本文從部件教學的概念出發 ,考慮聲符的發音強度、出現頻率、及筆劃數,做為聲符部 件教學順序的準則。我們利用部件發音強度 [8] ,以線性加總 、幾合乘積 、及調和平均 三種方法對部件排序。根據此部件排序學習,前五個部件便可延伸學習多達 140 個相似 發音的漢字。進一步 ,我們應用中研院文獻處理實驗室所建立的「漢字構形資料庫」, 以及標記所得之形聲字,拆解形聲字組成的部件,挖掘串連漢字之間關係的形音關聯規 則。我們從600 萬條發音規則中篩選與分群出8 條高信賴度與兩組各約10 條高支持度 的規則 ,並藉由這些規則來輔助漢語發音的學習效率 。 關鍵詞 :形聲字 、部件教學 、聲符強度 、機率分佈 、學習曲線 、關聯規則 一 、簡介 漢字是世界上最古老的文字之一,也是至今仍廣為使用一種形系文字。近年來由於 中國市場的興起,以華語做為第二外語的學習也連帶地愈來愈受到重視,華語學習者的 人數也倍數成長,據China Daily 2010 的文章指出 ,目前全世界超過四千萬的非華裔人 士正在學習華語文。由此可見未來華語文學習市場的龐大需求;再者 ,台灣近年來外籍 與大陸配偶的人數從 2002 年的二十三萬人成長至今四十四萬人 ,其中外籍配偶約十四 萬六千多人 ,已取得國籍者約九萬人 ,在在顯示了漢語學習的重要性 。 過去學習漢語只能靠資深的中文老師的教導或是學習者慢慢累積經驗,不僅對於海 166 外華語師資的培育緩不濟急,對於學習者而言更是一條漫長的路。然而,漢語字形讀音 繁複 ,初學者並不易掌握學習要訣 ,尤其漢語的發音更是複雜多變。事實上華語作為第 二語言的學習,比起英文作為第二語言的學習更是難上許多,因為漢語的字形與音調相 較拼音文字複雜 ,學習者要同時進行形、音、義三者的連結 ,如果沒有適當的聯想 ,將 需要很大的記憶力,比起傳統的拼音拉丁文字,即使會說華語的海外華人對於漢字的認 識也可能相當有限。其最主要的原因在於漢字是圖形文字(pictograph system) ,無法像英 文等拼音文字(alphabet system)一樣,一旦學會拼音方法(phonetic representation) ,即有基 本的閱讀能力。相較之下,一般漢字學習者讀寫的學習進展則會比較緩慢 ,而且必須搭 配注音符號(Chinese phonetic symbols)或是其他拼音方法 ,才可知道每個漢字的發音。 這樣的限制,對於漢字的學習相當不利,這也是為什麼二十世紀初期許多專家欲將漢字 拉丁化的主要原因 。 漢字的構成包含象形、指事、會意、形聲、轉注、假借(總稱六書[1]) 。據統計資料 , 7000 個現代漢語通用字中,屬於 「形聲」結構的有5631

文档评论(0)

laolao123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档