数位典藏技术研讨会-网路展书读.DOC

数位典藏技术研讨会-网路展书读

詩詞語言詞彙切分與語意分類標記之系統設計與應用 羅鳳珠?元智大學中國語文學系 gefjulo@.tw 第四屆數位典藏技術研討會,中央研究院主辦 2005年9月1-2日 摘要 本研究分析詩詞文體的語言特性,輔以詞譜、典故、人名、地名等專有名詞語料庫,建立詩詞語言詞彙切分之規則,設計詞彙切分及語意標記分類自動控制系統,所產生的詩詞詞彙及各類領域詞彙,提供文學研究使用,為引用資訊科技作為文學研究輔助工具探索可行的研究方向。 關鍵詞:唐詩、宋詞、詞彙切分、語意標記、自動控制系統 全文 研究動機與背景 以電腦作為文學研究的輔助工具,在電腦只能分辨字形,無法分辨字義的限制下,應用上受到很大的侷限,與人的判斷存在很大的距離,如何使電腦的判斷接近人腦,是否能判斷字詞義是其中的重要關鍵。 詞義的判斷需仰賴語意標記,語意標記需以詞彙切分為基礎,中國文字是單字單音,構成詞組的文字從一字到十六字都有。以《辭源》收單字詞12890條,多字詞82802條,共計95692條66,087條69.02%,數量最多,其次是佔13.47%的單字詞,再其次是佔9.63%的三字詞(註一)。單字可以成詞,二個以上的字也可以組合成新的詞彙,其組合的字數、方式,所產生的詞義千變萬化,即便是如人名、地名、動物、植物、人造物等專有名詞,其描述的詞彙也有本名、別名、通俗名的不同,這些都造成詞彙切分與語意標記的困難。 詞彙的組合有各種不

文档评论(0)

1亿VIP精品文档

相关文档