- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
以网际网路内容为基础之问答系统Why问句研究.PDF
以網際網路內容為基礎之問答系統 “Why”問句研究
沈天佐 林川傑 陳信希
國立台灣大學資訊工程學系
{tzshen,cjlin}@.tw; hh_chen@.tw
摘要
以 “Why”開頭的問句,問題的答案是 “原因 ” 。 “原因 ” 有不同的型態,可能是
一個片語、一個子句、一個句子,甚至跨越句子的範圍。目前的問答系統特別針
對 “Why問句 ”研究的並不多,本文探討如何從文件中擷取出 “Why問句 ”的
答案,文件的來源設定在網際網路。我們運用搜尋引擎取得相關文件,以描述因
果關係的句型來擷取答案。由於句型本身可能會有歧義性,某個句型的出現並不
代表一定是問句的答案,本文也針對這項議題進一步分析。我們並將所發展的問
答系統,與另外兩個以網際網路為基礎的問答系統― AnswerBus 和 LCC ,作了
效能的評估。在以 50個問句的測試中,我們的系統、 AnswerBus和 LCC的 MRR
值分別為 0.623 、0.429和 0.229 ,顯示我們的系統的效能優於這兩個系統。
1. 緒論
問答系統接受使用者的自然語言問句,從一堆文件集中,找出問句的答案。透過
問答系統,使用者可以直接得到答案,而不必自己瀏覽資訊檢索系統所傳回的一
堆相關文件尋找答案。TREC (Text Retrieval Conference)自 1999 年開始舉辦問答
系統的效能評比 (Voorhees, 1999) ,帶動近年來問答系統的研究風潮。TREC評
比的重點隨著研究成果的進展,每年都進行調整。以2002 年為例,評比的重點
在於參賽者的系統是否能夠準確地定出答案的範圍,而不是以一個固定長度的文
字片段當作答案。
完整的問答系統分為兩步驟,第一個步驟是從所有文件中找出與問句相關的
文件,此即「資訊檢索」的部分。如何將自然語言問句轉換為適合資訊檢索系統
的查詢字串,是個研究課題。第二個步驟是從相關文件中找出問句的答案,此稱
為「答案擷取」,這個部分是問答系統主要研究重點。進行「答案擷取」,問答系
統必須針對問句進行分析,以取得答案的類型。常見的「答案擷取」方法是利用
“Named Entity Tagging”的技術,再加上 問句與上下文相似度的計算 “ ” 。從簡單
的關鍵字比對,到較複雜的語意一致性判斷,都是可能的上下文與問句相似度計
算方法 (Harabagiu et al., 2000a; Moldovan and Rus, 2001) 。
以網際網路為基礎的問答系統研究,主要是利用網路上常見的搜尋引擎進行
資訊檢索,以取得相關文件,再利用與 TREC問答系統類似的技術來擷取答案。
這種類型的問答系統,必須考量即時性,避免太複雜技術帶來的負擔。目前的研
究有 Radev et al. (2001) 、Radev et al. (2002) 、Zheng (2002) 、Lin (2002) 。另外,
網頁文件的一些特性,例如 HTML 標記、超鏈結、風格差異、內容正確性等,
也是在研究上必須考量的議題。
目前大部分問答系統擷取答案方法,主要針對答案類型為 Named Entities 。
對於答案較複雜,沒有固定形式的問句類型,如 “Why … ?” 和 “How does S
V?” ,則較少有深入的探討與分析。Girju 與 Moldovan (2002)曾經探討過回答
“cause-effect questions” ,研究因果關係在文中的表達方法。不過這篇文章的重點
擺在 NP1 VERB NP2 這種 pattern 上,其中的動詞必須是個 “causative verb” ,
例如: “cause” 、“lead to” 、“make” 等。由於這些動詞未必一定代表因果關係,如
“make” 有時的意義為 “製造” ,所以研究重點在於如何由VERB 、NP1 和 NP2
來判斷是否描述因果關係。
在閱讀測驗問答系統 (reading comprehension)的研究上 , A
原创力文档


文档评论(0)