- 0
- 0
- 约3.22千字
- 约 20页
- 2019-12-15 发布于广西
- 举报
華語文學系台灣語文碩士學位班 羅馬字t?台語文漢羅文本中ê使用比例分析—以台語文語料庫為基礎 第一章 前言 第一節 研究背景 因為我感覺寫台語文章 ê 時,發現ti?n- ? tú-ti?h b?e-曉寫 ê 漢字,所以我只好寫白話字,就 ? 免煩惱。 到底什麼時陣寫漢字?什麼時陣寫羅馬字? 第一章 前言 第二節 研究動機 Chit-má beh叫逐家用白話字寫台語文,是真困難;?-koh n?用漢羅合用ê方式來寫,一般ê人kah ?-tàng來做,看ê人m?看kah有。 漢羅合用ê時,漢字、羅馬字混用ê比率,si?ng好根據客觀ê語言學ê研究來規劃(張學謙 2003)。羅馬字ê出現有一個頻率標準,是因為虛詞ia-是phái寫ê字,這是我t? chia beh探討研究ê。 第一章 前言 第三節 研究目的 beh了解台語文漢羅書寫時,羅馬字ê使用情形, koh希望提供確實ê羅馬字ê 使用情形kap分析 。 1. 羅馬字t?台語文漢羅文本中出現ê頻率是如何? 2. 羅馬字使用ê情形、原因如何? 第二章 文獻分析 第一節 台語漢字ê書寫歷史: 第二節 白話字ê歷史: 第三節 漢羅合用ê主張實踐: 第四節 母語文字化相關研究: 第五節 語料庫語言學ê相關研究: 第三章 研究步驟 第一節 語料庫來源 以楊允言、張學謙等人所搜集ê「台語文語料庫」為主,文類涵蓋學術論文、報導性文章(新聞報導、訪談)、各類創作(小說、劇本、散文、新詩、笑話、寓言故事、囝仔歌)、民間文學、書信、...等各類型。 第三章 研究步驟 第二節 斷詞 斷詞方法,是利用”逆向最大比對法(Backward maximal matching algorithm)” ê方法來斷詞。 ?-tàng t?網路ê漢羅台語文斷詞系統(/hanlo_hunsu.php)來做斷詞,kan-na kah beh斷詞ê 一句話,phah t? 輸入資料ê 格á 內底,系統就? 斷詞好seh。 第三章 研究步驟 第三節 詞頻統計 T?「台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計」(.tw/giankiu/keoe/KKH/guliau-supin/guliau-supin.asp)內看到楊允言伊所統計 ê 結果。 第三章 研究步驟 第四節 人工檢查及分析方法 一、音節統計: 1、T?工具列 ê 資料內底,用排序 ?-tàng kah 羅馬字kap漢字分開。 2、統計羅馬字kap 漢字ê字數。 3、用Σ統計羅馬字kap漢字使用 ê 頻率總合。 4、算出羅馬字kap漢字 ê 使用比率。 第三章 研究步驟 二、語詞統計: 1、利用Excel 內函數程式=CODE(B2),?-tàng kah羅馬字 ê a 到 u ùi 79 到 117排,詞ê第一字是羅馬字先排出來。 2、利用Excel 內函數程式= CODE(RIGHT(B2,1)),?-tàng kah si?ng尾字是漢字,ùi 42,000開始排。 3、kap頂面二 ê 數字加起來,總合 t? 250以下 ê 是全羅馬字,總合 t? 42,000到 51,000 是漢羅合用,總合超過80,000 是全漢字。 4、少數漢羅合用 ê 字會 l?m t?全羅馬字(b?-記-tit) ia-是全漢字(是?是)內底,ài用人工揀出來。 第四章 研究分析 第一節 使用比例分析 一、ùi全部音節來看: 1、用字數來分析: Tī chit 5,073字漢字kap 3,454字羅馬字中,使用ê比例是:漢字佔59.49%,羅馬字佔40.51%。 2、用使用頻率來分析: 使用ê頻率是:漢字佔78.44%,羅馬字佔21.56% 。 第四章 研究分析 第一節 使用比例分析 二、 ùi使用總合80% ê音節來看: 1、用字數來分析: Tī chit 546 字漢字kap 92字羅馬字中,使用ê比例是:漢字佔85.58%,羅馬字佔14.42% 。 2、用使用頻率來分析: 使用 ê 頻率是:漢字佔78.84%,羅馬字佔21.16% 。 第四章 研究分析 第一節 使用比例分析 綜合頂面二種統計來看,羅馬字ê使用字數比率,用全部字數kap 80%高頻率 ê 字數,ùi 40.51%減到14.42%,差足濟 ê;m?-koh,in ê 使用頻率
原创力文档

文档评论(0)