形音相近的易混淆汉字的搜寻与应用-AssociationforComputational.PDFVIP

形音相近的易混淆汉字的搜寻与应用-AssociationforComputational.PDF

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
形音相近的易混淆汉字的搜寻与应用-AssociationforComputational

形音相近的易混淆漢字的搜尋與應用 劉昭麟 黃志斌 翁睿妤 莊怡軒 國立政治大學 資訊科學系 {chaolin, g9614, s9403, s9436}@.tw 摘要 在中文裡面,漢字包含因為發音相近或者形體相似的易混淆字,這一些易混淆字對於電 腦輔助教學和語言心理學的相關研究具有相當意義。我們運用倉頡碼的設計理念和電子 詞典所提供的發音資訊,配合網際網路可以得到的文字資訊,設計一個不須仰賴影像處 理技術,就可以找到形音相近漢字的方法。經過實驗證明,以提交五個甚至一個建議字 為限,我們的方法所建議的形音相近字集,能夠包含一般與專業受試者所提供的常見錯 別字集。 關鍵詞:漢字研究、漢字搜尋、漢字構字資訊、電腦輔助語言教學、語文認知 1. 簡介 個別漢字是構成中文的基本單位,有自己的發音、筆畫構造與所攜帶的意涵;透過個別 漢字所組成的單字詞、雙字詞等詞彙,依據漢語語法組成中文句子。因此,學習漢字雖 然不是學習漢語會話的必要工作,但卻是進階中文學習者一個重要的功課。同時,語言 使用者如何透過語言的聲音(pronunciation)和文字的形體(grapheme)來擷取語意,更是研 究語言認知歷程的學者所專注的重要議題。因此,本論文探討如何利用軟體技術找尋因 為發音和形體近似而容易混淆的漢字,以供電腦輔助教學和認知語言學的研究之用。 中文句子「今天上午我們來試場買菜」包含一個典型的錯誤;試場雖然是一個存在 的詞彙,代表考試的場所,但是除非情境特殊,否則在這一例句裡面的「試場」應改為 「市場」。「經理要我構買一部計算機」這個句子也有一個錯誤:「構買」應改為「購買」。 雖然在簡體字的環境中比較多的人會寫「構買」,但是在繁體中文的使用群中,也有人 把「購買」寫成「構買」。 因為形音近似而誤用詞彙並不是中文所特有的現象,英文也有類似的問題[4] 。舉 例來說,“John plays an important roll in this event.” 包含一個錯誤的字;“roll” 應改為 “role” 。其他像下列這一些字組,都是易混淆字的範例,principle和principal 、teen和team 、 there和their 、leak和leek 、wait和weight 、knows和nose以及knit和nit等等。 形音近似的漢字常被用於國民小學國語科試題的「改錯字」試題[6] 。教師把一句 正確的中文句子其中一個字改成另一個具有相當吸引力的錯字,以這一句帶有錯字的中 文當作試題,要求受測學生找出並且更正這一錯字。這一類的試題也可以變形為中文的 克漏詞試題(cloze) [9, 13] ,克漏詞試題雖然在中文試題中比較少出現,卻是國內外英文 測驗,如托福、GRE和大學指考等,幾乎是必然採用的題型。 形音近似的漢字在語言心理學的研究上也相當有用。Taft 、Zhu和Peng [15] 研究部 首位置對於受試者的詞彙決策(lexical decisions)與命名反應(naming responses) 。Tsai等學 者 [16]則研究相近漢字的字數的多寡(neighborhood size)對於詞彙決策與閱讀的影響。 Yeh 和 Li [17] 研究近形字對於一個熟練的中文閱讀者所執行的詞彙決策的影響。 發音相近的字可能可以藉由電子詞典所記載的資訊來判斷;相對地,形體相近的字 則尚未有簡易的方法來找尋。影像處理技術雖然可能有用,但是對於為數眾多、且近似 方式繁複的漢字來說,應用影像處理技術的時效恐怕不佳。本文從應用朱邦復所設計的 倉頡碼出發[2] ,改變倉頡碼的原始設計,參考原本為了補足漢字字形缺字所創造的漢 字構形資訊[1] ,得到一套可以為任何漢字找尋形體近似的漢字的方法。 結合所找到音形相近的漢字字集之後,我們利用谷歌(Google)的搜尋介面所提供的 資訊來排序所找到的字集的候選字,藉此排序可以限制我們所提供的近似字的字數。實 驗結果顯示,不管以真人受試者或者專家意見作為評比的標準答案,我們的系統所提供 的字集都能有效協助教師編輯高品質的「改錯字」試題。 我們在第 2 節討論如何利用倉頡與構形資訊來建構一個找尋近形字的子系統。在第 3 節討論找尋漢字同音、近音字的技術問題。在第 4 節討

文档评论(0)

sunshaoying + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档