研究架构与方法.pdfVIP

下载本文档

16
0
约5.79千字
约 9页
2017-11-24 发布于天津
举报

研究架构与方法.pdf

研究架构与方法

第三章研究架構與方法本章節主要針對研究的架構與研究時所必須要用到的模式與方法作一個解釋與定義，本研究的研究架構如下： 3.1研究架構圖 1研究架構圖在研究架構中，我們主要探討五個部分即詞彙篩選、詞彙關係定義、計算語意距離與相似性、收集考題及架構驗證，在詞彙篩選部分我們採取除去少數人使用的詞彙與同義異形字，例如 Quick Ratio ，有人喜歡翻成快速比率，有人喜歡翻成速動比率，但在眾多的資料來源中，速動比率的出現頻率比快速比率高很多，而實際上兩者指的是一樣的概念，因此我們會去除掉快速比率而採用速動比率。關係定義上我們會採用本研究主要的架構，即 WordNet的定義來做詞彙間的關係定義，在作關係定義之前會先進行詞性分類與詞義關係的定義，之後判定兩個詞彙之間的關係。計算語意距離則採用 Jarmasz, Szpakowicz的定義，依兩個詞彙在 WordNet 定義下的位置來計算兩者間的距離，而後利用 Resnik的相似度計算公式來計算其相似度。考題收集上，考題的取得其實十分的簡便，困難點在於該如何篩選考題作為本研究的測試題庫，因此在這邊我們也定義了兩個篩選考題的規則：不選一般性的概念題與不選與本領域無關的考題，如此可以避免掉較多的麻煩。架構驗證，本研究採取反覆的(iterative)驗證模式，如果一開始的架構並不完善，在經過我們加入延伸 (expansion)之後，便要再次進行模式驗證，透過反覆進行”加入延伸→驗證”這樣的過程，直到出現較令人滿意的結果為止，這樣的驗證模式稱為反覆式驗證模式。 3.2詞彙篩選本架構初步的工作大多在詞彙的收集與處理，在詞彙的篩選上，我們利用下圖來表示：圖 2詞彙篩選模型從上圖我們可以看到在我們篩選詞彙的過程中，主要的資料來源分為三部分，書本、雜誌跟網站，經過整理後，將整理完成的詞彙經過篩選，而篩選的動作實際上包含兩個部分：第一個部分，去除少數字，這個部分的目的主要在除去某些只在一兩篇文章中出現的詞彙，因為這些詞彙對於我們的研究本身並沒有幫助，屬於只有少數人使用的詞彙，這與 WordNet中詞彙的挑選有所衝突，因此我們會將這些詞彙除去。第二部分，去除同義異形字，所謂的同義異形字並不是指同義字，而是指同樣的一個概念，卻因為個人的因素造成型態不同，這些因素比如像英文翻譯為中文後，會出現許多不同的翻譯法，但實際上，是代表同樣的一個概念，主要的做法是利用詞彙的英文名稱作為辨別，將同一概念的詞彙統一表達。經過上述兩個篩選步驟後，將合格的詞彙作為我們所需要的詞彙。 3.3詞彙關係定義在篩選完我們所要的詞彙後，接下來就是要為詞彙建立關聯，也就是實作 Ontology的部分，而定義的過程我們採用下圖中所描述的模式：圖 3詞彙關係定義模型在本模式中，我們利用前一步驟中所篩選出來的合用詞彙，將這些取得的詞彙先作詞性的分類，將詞彙依動詞、名詞與形容詞先進行第一步的分類，因為 WordNet的詞性關係定義是分詞彙進行的，在分類完詞性後，必須要去了解每個詞彙的定義，也就是所謂的詞義，將這些詞義取出並作詞義間的比對，最後經由 WordNet中所定義的詞彙關係，將所有詞彙的關係定義出來，完成這個步驟後我們便可以取得哪些詞彙是屬於同義詞，哪些是屬於反義、近義等等。在這個步驟中的，我們實際建構了一個領域的 Ontology ，而這個Ontology 是參照 WordNet中所定義的架構所創建的。 3.4計算語意距離與相似度完成了詞彙關係網路後，便可開始計算語意距離，我們遵從 Jarmasz, Szpakowicz的定義並加入些許修改，如表 2所呈現：表2 Jarmasz, Szpakowicz 與本研究的定義語意距離描述範例 0 同義詞 journey’s end

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

研究架构与方法.pdfVIP