- 10
- 0
- 约10.42万字
- 约 41页
- 2018-10-10 发布于天津
- 举报
第四章.实验设计与分析.PDF
第 四 章 . 實驗設計與分析
實驗目的主要是觀察設計的方法是否能達到預期的效果 ,例如使用N-gram可以
快速的篩選出 等義詞 ,但對繁簡體辨識等義詞的能力是否如同所規劃的方法有效 ,並
且二次篩選後的 PMIIR和 LCIR及 Context Vector是否能再提昇 Precision 與Recall ,
是實驗後要去評估及探討的 。
本章將呈現第三章的研究方法 ,將實驗後觀察結果並進行分析說明 。4.1節說明
實驗資料 ,4.2節為實驗設計規劃 ,4.3節則是此實驗評估方法 ,4.4節則是實驗分析 ,
4.5節是 小結 ,探討以本研究所提出的方法模型和評估結果 。
政 治
立 大
4.1實驗語料庫來源 學
國
‧
原本實驗的語料庫 來源要在台灣的新聞網頁上大量擷取新聞 ,再到大陸網站找
‧
尋相同翻譯後的新聞 ,藉由兩種相同內容但經過翻譯後的不同語言,嘗試將這些語料
N y
a t
作為實驗時一般類的語料庫 。不過利用電腦自動擷取網頁內容並不是件容易的事 ,被
t i
i s
o r
n
擷取的網站很容易就會阻檔程式的擷取動作 ,並且網頁中的內容通常含有大量的廣告、
e
a v
l i
C n
選單按鈕文字或其他說明等雜訊 ,因此去除這些雜訊又是非常耗時費力。
h U
engchi
為了取得平行語料庫 ,剛好有出版社提供簡體翻譯成繁體的書籍電子檔,這些
書籍電子檔幾乎是百分之百繁簡對映的檔案 ,可作為電腦類的平行語料庫來源。另外
為了有相對照的一般類語料 ,所以利用中央研究院平衡語料庫 作為一般類的繁體語料
庫,以報章雜誌及新聞內容為主 ,對映的一般類的簡體語料庫用的是搜狗語料庫 ,是
大陸網頁的語料庫 ,以新聞型態的內容為主。
本研究的語料庫共有三種來源 ,說明如下:
1. 電腦翻譯書 :包含數十本由繁體與簡體相互翻譯的書籍,內容以電腦相關領域
為主 ,包含程式設計、硬體教學、網路應用等。
67
2. 中研院平衡語料庫 :中研院的「中央研究院平衡語料庫」簡稱 「中研院平衡語
料庫」(Sinica Corpus ),此語料庫是世界上第一個有完整詞類標記的漢語平衡語
料庫 。而使用的語料庫3.0版已達到五百萬目詞的規模 。
3. 搜狗語料庫 :搜狗語料庫稱為互聯網(Internet)語料庫 2.0 ,內容包含Web頁面及
網路語料 ,互聯網語料庫2.0版本是一個包含了約 1億( 100,054,692)網頁資料 ,
原始語料規模超過 1TB的海量網路頁面語料庫 。
將語料庫
您可能关注的文档
最近下载
- 面向产业的算法治理研究(2025年).pptx
- 梵音入汉:佛经汉译对汉语演进的多维影响.docx
- 小学低段音乐课堂管理方法的研究课题资料(包含申请表、开题报告、实施方案、结题报告等).pdf VIP
- 2026《隧道贯通误差预计计算案例》4000字.docx
- 2022-2023学年北京市丰台区高二(下)期末数学试卷(附答案详解).docx VIP
- 5m盐酸溶液的配制 -回复.pdf VIP
- 2026年新疆工程学院辅导员招聘备考题库最新.docx VIP
- 2026年新疆财经大学辅导员招聘备考题库必考题.docx VIP
- 2026年新疆农业大学辅导员招聘备考题库附答案.docx VIP
- 现代金属凝固技术课件(9056KB).ppt VIP
原创力文档

文档评论(0)