第四章.实验设计与分析.PDFVIP

下载本文档

10
0
约10.42万字
约 41页
2018-10-10 发布于天津
举报

第四章.实验设计与分析.PDF

第四章 . 實驗設計與分析實驗目的主要是觀察設計的方法是否能達到預期的效果，例如使用N-gram可以快速的篩選出等義詞，但對繁簡體辨識等義詞的能力是否如同所規劃的方法有效，並且二次篩選後的 PMIIR和 LCIR及 Context Vector是否能再提昇 Precision 與Recall ，是實驗後要去評估及探討的。本章將呈現第三章的研究方法，將實驗後觀察結果並進行分析說明。4.1節說明實驗資料，4.2節為實驗設計規劃，4.3節則是此實驗評估方法，4.4節則是實驗分析， 4.5節是小結，探討以本研究所提出的方法模型和評估結果。政治立大 4.1實驗語料庫來源學國 ‧ 原本實驗的語料庫來源要在台灣的新聞網頁上大量擷取新聞，再到大陸網站找 ‧ 尋相同翻譯後的新聞，藉由兩種相同內容但經過翻譯後的不同語言，嘗試將這些語料 N y a t 作為實驗時一般類的語料庫。不過利用電腦自動擷取網頁內容並不是件容易的事，被 t i i s o r n 擷取的網站很容易就會阻檔程式的擷取動作，並且網頁中的內容通常含有大量的廣告、 e a v l i C n 選單按鈕文字或其他說明等雜訊，因此去除這些雜訊又是非常耗時費力。 h U engchi 為了取得平行語料庫，剛好有出版社提供簡體翻譯成繁體的書籍電子檔，這些書籍電子檔幾乎是百分之百繁簡對映的檔案，可作為電腦類的平行語料庫來源。另外為了有相對照的一般類語料，所以利用中央研究院平衡語料庫作為一般類的繁體語料庫，以報章雜誌及新聞內容為主，對映的一般類的簡體語料庫用的是搜狗語料庫，是大陸網頁的語料庫，以新聞型態的內容為主。本研究的語料庫共有三種來源，說明如下： 1. 電腦翻譯書：包含數十本由繁體與簡體相互翻譯的書籍，內容以電腦相關領域為主，包含程式設計、硬體教學、網路應用等。 67 2. 中研院平衡語料庫：中研院的「中央研究院平衡語料庫」簡稱「中研院平衡語料庫」（Sinica Corpus ），此語料庫是世界上第一個有完整詞類標記的漢語平衡語料庫。而使用的語料庫3.0版已達到五百萬目詞的規模。 3. 搜狗語料庫：搜狗語料庫稱為互聯網(Internet)語料庫 2.0 ，內容包含Web頁面及網路語料，互聯網語料庫2.0版本是一個包含了約 1億（ 100,054,692）網頁資料，原始語料規模超過 1TB的海量網路頁面語料庫。將語料庫

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第四章.实验设计与分析.PDFVIP