第四章.实验设计与分析.PDFVIP

  • 10
  • 0
  • 约10.42万字
  • 约 41页
  • 2018-10-10 发布于天津
  • 举报
第四章.实验设计与分析.PDF

第 四 章 . 實驗設計與分析 實驗目的主要是觀察設計的方法是否能達到預期的效果 ,例如使用N-gram可以 快速的篩選出 等義詞 ,但對繁簡體辨識等義詞的能力是否如同所規劃的方法有效 ,並 且二次篩選後的 PMIIR和 LCIR及 Context Vector是否能再提昇 Precision 與Recall , 是實驗後要去評估及探討的 。 本章將呈現第三章的研究方法 ,將實驗後觀察結果並進行分析說明 。4.1節說明 實驗資料 ,4.2節為實驗設計規劃 ,4.3節則是此實驗評估方法 ,4.4節則是實驗分析 , 4.5節是 小結 ,探討以本研究所提出的方法模型和評估結果 。 政 治 立 大 4.1實驗語料庫來源 學 國 ‧ 原本實驗的語料庫 來源要在台灣的新聞網頁上大量擷取新聞 ,再到大陸網站找 ‧ 尋相同翻譯後的新聞 ,藉由兩種相同內容但經過翻譯後的不同語言,嘗試將這些語料 N y a t 作為實驗時一般類的語料庫 。不過利用電腦自動擷取網頁內容並不是件容易的事 ,被 t i i s o r n 擷取的網站很容易就會阻檔程式的擷取動作 ,並且網頁中的內容通常含有大量的廣告、 e a v l i C n 選單按鈕文字或其他說明等雜訊 ,因此去除這些雜訊又是非常耗時費力。 h U engchi 為了取得平行語料庫 ,剛好有出版社提供簡體翻譯成繁體的書籍電子檔,這些 書籍電子檔幾乎是百分之百繁簡對映的檔案 ,可作為電腦類的平行語料庫來源。另外 為了有相對照的一般類語料 ,所以利用中央研究院平衡語料庫 作為一般類的繁體語料 庫,以報章雜誌及新聞內容為主 ,對映的一般類的簡體語料庫用的是搜狗語料庫 ,是 大陸網頁的語料庫 ,以新聞型態的內容為主。 本研究的語料庫共有三種來源 ,說明如下: 1. 電腦翻譯書 :包含數十本由繁體與簡體相互翻譯的書籍,內容以電腦相關領域 為主 ,包含程式設計、硬體教學、網路應用等。 67 2. 中研院平衡語料庫 :中研院的「中央研究院平衡語料庫」簡稱 「中研院平衡語 料庫」(Sinica Corpus ),此語料庫是世界上第一個有完整詞類標記的漢語平衡語 料庫 。而使用的語料庫3.0版已達到五百萬目詞的規模 。 3. 搜狗語料庫 :搜狗語料庫稱為互聯網(Internet)語料庫 2.0 ,內容包含Web頁面及 網路語料 ,互聯網語料庫2.0版本是一個包含了約 1億( 100,054,692)網頁資料 , 原始語料規模超過 1TB的海量網路頁面語料庫 。 將語料庫

文档评论(0)

1亿VIP精品文档

相关文档