- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于本体知识的汉语诗的语意查询 - 网路展书读 - 元智大学
漢語詩的本體知識與語意檢索
蘇豐文,傅怡婷,陳書磊,楊世堯,羅鳳珠
摘要
由於網路的發達,知識的表達、分享、再利用、創造、管理的資訊技術已成為人類社會各行各業的重要課題。單僅使用關鍵詞比對(Keyword Match)的資訊檢索(information retrieval)技術,已無法負荷資訊超載(information overloading)的網際網路。其侷限在字詞變化以及句法結構的比對方式,無法對被搜尋的概念語義有掌握,檢索結果時常精確度不夠且包含許多雜訊(noise)。中國文學的詩詞,用詞精練但語意內涵豐富。若語意加註之後, 除了可以做為詩詞資訊的語意檢索與問答查詢外,可以進一步做語意層次的各種面向的統計分析,以利詩的欣賞與理解,更可以作為未來電腦自動作詩的基礎。但是詩詞中用到的隱喻與典故,雖是高明的文學手段, 卻需要更複雜的資訊技術來處理,因此對於資訊與文學間的技巧研究與認知上提供了挑戰性的討論空間。本研究將採納本體知識(ontology)以及語意自動加註方法,希望能用語意處理的技巧,將漢語詩詞資訊檢索提出新的解決方案。我們將應用當今語意網的知識表示法與建構本體知識的方法,以及我們如何利用語意網的知識表示方法,建構詩的領域知識,如何利用同義詞庫來將詩自動加註語意標記。我們可以從語意加註的詩中初略擷取本體知識的結構,並利用本體知識結構來判斷詩中「擬人」的修辭的技巧。另外,我們設計了語意相似度的評分模式與計算方法以便匹配語意近似的詞彙與片語結構,並利用多種不同的問句(queries)來評估語意查詢的效益,並且將語意查詢架構與傳統關鍵詞檢索方法加以比較優劣。 希冀以自動化語意處理的角度,與與會中文學家與語言學家做進一步的交流。
關鍵字: 本體知識(Ontology),語意網(Semantic Web),資訊檢索(Information Retrieval),語意加註(Semantic Annotation),語意查詢(Semantic Retrieval)
壹、簡介
歷史文物的數位化與典藏的推動在於數位內容的加值,以及提供研究歷史文物學者的各種服務。對於研究中文文學領域的學者來說,早期需要不斷翻書的考證工作,在資訊發達的今日可望藉由資訊技術的導入,提昇研究效率,同時也增強其深度與廣度。近年來在國家型數位典藏相關計畫之推展下產生了數個典藏內涵豐富的中國文學資料庫:例如中研院的瀚典資料庫以及元智大學羅鳳珠教授之「網路展書讀」計畫等。然而,雖然我們擁有如此豐富的資料庫,一般使用者時常還是會面臨不知如何檢索到所需資料的窘境,其原因試分析如下:
古典文學所使用的詞藻語彙與現代漢語差異性大,一般使用者無法精確掌握詩中所使用的辭彙,或是有些古字、難字無法以鍵盤輸入。
人類的記憶有模糊的特性,在記憶詩句時,有時只掌握其概略的意思,而未能精確的記憶該字句。
一般的古書沒有標註索引,對於使用者來說,查找相當不易,資料庫可以使用後設資料 (metadata)來記錄每筆的資料的屬性,然而對於沒有索引的古書篇章來說,管理者所賦予的分類標題,並不是一般使用者可以完全理解的;若是使用者記不清完整的詞句概念,更別說利用關鍵詞比對檢索來進行查找了。
詩詞中大量引用的明喻、隱喻、典故、雙關、擬物、擬人化等手法往往使得詩詞的關鍵詞檢索面臨困難。一般的後設資料(metadata)往往只會對作者、日期、標題、內容做標記。並沒有對詩詞內容本身作語意的加註,因此後設資料的方法並無法滿足針對內容概念的檢索需求。
上述幾個原因皆可歸因於使用者與資料庫之間缺乏良好的溝通管道所致。若企圖傳遞訊息的一方,其語意(semantic)無法被系統所理解,其傳遞訊息就容易產生誤差,當然檢索效果也有無法精確。
「利用知識來尋找知識」是我們近年來的研究目標之一。 我們需要設計一個智慧型代理人(Intelligent Agent) 擁有適當的本體知識(ontology),能與使用者作良好的溝通,並能將使用者的詢問的問句經過有效的語意分析之後,再到典籍文獻中抓取適當的資訊答案回饋給使用者。但是設計如此的智慧型代理人並非一蹴可及。首先不僅代理人需要賦予知識外,被檢索的文獻文句也要事先適當的加上語意的標籤(tags),也就是語意碼,我們稱之為語意加註。文獻經過適當的語意加註之後, 智慧型代理人便可以利用語意來檢索歷史圖片[2],也可以從加註文獻中自動擷取知識,回答歷史上人事時地物的問題[3]。這是因為要理解自然語言的文句而直接從中抽取所要的答案通常是非常困難的,若有事先語意的標識,對智慧型代理人而言就相對容易多了。但是語意自動加註也並非如想像中容易,不僅要有一部具有語意分類的電子詞庫, 對於歷史的人事時地物的專有名詞與關係,必須事先加以定義, 分辨詞的岐義現象,決定語意的疏密層次,語用功能的考量
您可能关注的文档
- 国立屏东师范学院九十四学年度学士班转学招生考试 - 屏东大学图书馆.doc
- 国立屏东教育大学103 学年度研究所硕士班入学考试 - 屏东大学图书馆.pdf
- 国立屏东教育大学教学活动设计 - 安庆国小.doc
- 国立彰化启智学校103学年度第3次中等教育阶段身心障碍组代理教师 .doc
- 国立彰化特殊教育学校103学年度第二学期中等教育阶段身心障碍组 .doc
- 国立屏东科技大学休闲运动保健系硕士班休闲经营专题讨论授课规范.ppt
- 国立政治大学活动旗帜、布条及广告物设置作业要点.pdf
- 国立政治大学等大专校院对于实施二代健保之疑义及建议 - 高师大.pdf
- 国立故宫博物院为民服务白皮书.doc
- 国立清华大学服务科学所服务设计课程.pdf
文档评论(0)