- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于本体知识的汉语诗的语意查询-网路展书读
漢語詩的本體知識與語意檢索
蘇豐文,傅怡婷,陳書磊,楊世堯,羅鳳珠
摘要
由於網路的發達,知識的表達、分享、再利用、創造、管理的資訊技術已成為人類社會各行各業的重要課題。單僅使用關鍵詞比對(keyword match)的資訊檢索(information retrieval)技術,已無法負荷資訊超載(information overloading)的網際網路。其侷限在字詞變化以及句法結構的比對方式,無法對被搜尋的概念語義有掌握,檢索結果時常精確度不夠且包含許多雜訊(noise)。中國文學的詩詞,用詞精練但語意內涵豐富。若語意加註之後, 除了可以做為詩詞資訊的語意檢索與問答查詢外,可以進一步做語意層次的各種面向的統計分析,以利詩的欣賞與理解,更可以作為未來電腦自動作詩的基礎。但是詩詞中用到的隱喻與典故,雖是高明的文學手段, 卻需要更複雜的資訊技術來處理,因此對於資訊與文學間的技巧研究與認知上提供了挑戰性的討論空間。本研究將採納本體知識(ontology)以及語意自動加註方法,希望能用語意處理的技巧,將漢語詩詞資訊檢索提出新的解決方案。我們將應用當今語意網的知識表示法與建構本體知識的方法,以及我們如何利用語意網的知識表示方法,建構詩的領域知識,如何利用同義詞庫來將詩自動加註語意標記。我們可以從語意加註的詩中初略擷取本體知識的結構,並利用本體知識結構來判斷詩中「擬人」的修辭的技巧。另外,我們設計了語意相似度的評分模式與計算方法以便匹配語意近似的詞彙與片語結構,並利用多種不同的問句(queries)來評估語意查詢的效益,將語意查詢架構與傳統關鍵詞檢索方法加以比較優劣。
關鍵字: 本體知識(ontology),語意網(semantic web),資訊檢索(information retrieval),語意加註(semantic annotation),語意查詢(semantic retrieval)
壹、簡介
歷史文物的數位化與典藏的推動在於數位內容的加值,以及提供研究歷史文物學者的各種服務。對於研究中文文學領域的學者來說,早期需要不斷翻書的考證工作,在資訊發達的今日可望藉由資訊技術的導入,提昇研究效率,同時也增強其深度與廣度。近年來在國家型數位典藏相關計畫之推展下產生了數個典藏內涵豐富的中國文學資料庫:例如中研院的瀚典資料庫[1]以及元智大學羅鳳珠教授之「網路展書讀」計畫[2]等。然而,雖然我們擁有如此豐富的資料庫,一般使用者時常還是會面臨不知如何檢索到所需資料的窘境,其原因試分析如下:
古典文學所使用的詞藻語彙與現代漢語差異性大,一般使用者無法精確掌握詩中所使用的辭彙,或是有些古字、難字無法以鍵盤輸入。
一般的古書沒有標註索引,對於使用者來說,查找相當不易,資料庫可以使用後設資料 (metadata)來記錄每筆的資料的屬性,然而對於沒有索引的古書篇章來說,管理者所賦予的分類標題,並不是一般使用者可以完全理解的;若是使用者記不清完整的詞句概念,更別說利用關鍵詞比對檢索來進行查找了。
詩詞中大量引用的明喻、隱喻、典故、雙關、擬物、擬人化等手法往往使得詩詞的關鍵詞檢索面臨困難。一般的後設資料(metadata)往往只會對作者、日期、標題、內容做標記。並沒有對詩詞內容本身作語意的加註,因此後設資料的方法並無法滿足針對內容概念的檢索需求。
上述幾個原因皆可歸因於使用者與資料庫之間缺乏良好的溝通管道所致。若企圖傳遞訊息的一方,其語意(semantic)無法被系統所理解,其傳遞訊息就容易產生誤差,當然檢索效果也有無法精確。
「利用知識來尋找知識」是我們近年來的研究目標之一。 我們需要設計一個智慧型代理人(intelligent agent) 擁有適當的本體知識(ontology),能與使用者作良好的溝通,並能將使用者的詢問的問句經過有效的語意分析之後,再到典籍文獻中抓取適當的資訊答案回饋給使用者。但是設計如此的智慧型代理人並非一蹴可及。首先不僅代理人需要賦予知識外,被檢索的文獻文句也要事先適當的加上語意的標籤(tags),也就是語意碼,我們稱之為語意加註。文獻經過適當的語意加註之後,智慧型代理人便可以利用語意來檢索歷史圖片[3],也可以從加註文獻中自動擷取知識,回答歷史上人事時地物的問題[4]。這是因為要理解自然語言的文句而直接從中抽取所要的答案通常是非常困難的,若有事先語意的標識,對智慧型代理人而言就相對容易多了。但是語意自動加註也並非如想像中容易,不僅要有一部具有語意分類的電子詞庫,對於歷史的人事時地物的專有名詞與關係,必須事先加以定義,分辨詞的岐義現象,決定語意的疏密層次,語用功能的考量。在在都需要結合語言學知識與資訊技術。傳統的自然語言處理使用了大量的統計方式來取得參數,對於語法的判斷上在大量資料處理時著實能達到一定的正確率。然而其效果對
您可能关注的文档
最近下载
- 2024-2025学年上学期长沙小学语文六年级期末模拟试卷.doc
- 2025年野生动物园行业调研分析报告.docx VIP
- 中国危重症患者肠内营养支持常见并发症预防管理专家共识解读课件.pptx
- 2024年中考数学复习 圆中的重要模型-圆中的翻折模型(原卷+答案解析).pdf VIP
- 小学语文新课标六年级《为人民服务》朱丽芳(1).pdf
- 专家答疑纪要—第1期:电力建设工程(建筑专业).doc
- 创建绿色施工环境保护台帐.doc VIP
- DB32_T2334.2—2013《水利工程施工质量检验与评定规范》第2部分:建筑工程.doc
- 2025届高考作文素材:人工智能与Deepseek+课件.pptx VIP
- 剑桥(join in)版小学英语五年级下册单元知识梳理总结(全册).pdf VIP
文档评论(0)