- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
以網際網路內容為基礎之問答系統 “Why” 問句研究
沈天佐 林川傑 陳信希
國立台灣大學資訊工程學系
{tzshen,cjlin}@.tw; hh_chen@.tw
摘要
以 “Why” 開頭的問句,問題的答案是 “原因”。 “原因” 有不同的型態,可能是一個片語、一個子句、一個句子,甚至跨越句子的範圍。目前的問答系統特別針對 “Why問句” 研究的並不多,本文探討如何從文件中擷取出 “Why問句” 的答案,文件的來源設定在網際網路。我們運用搜尋引擎取得相關文件,以描述因果關係的句型來擷取答案。由於句型本身可能會有歧義性,某個句型的出現並不代表一定是問句的答案,本文也針對這項議題進一步分析。我們並將所發展的問答系統,與另外兩個以網際網路為基礎的問答系統─AnswerBus和LCC,作了效能的評估。在以50個問句的測試中,我們的系統、AnswerBus和LCC的MRR值分別為0.623、0.429和0.229,顯示我們的系統的效能優於這兩個系統。
緒論
問答系統接受使用者的自然語言問句,從一堆文件集中,找出問句的答案。透過問答系統,使用者可以直接得到答案,而不必自己瀏覽資訊檢索系統所傳回的一堆相關文件尋找答案。TREC (Text Retrieval Conference) 自1999年開始舉辦問答系統的效能評比 (Voorhees, 1999),帶動近年來問答系統的研究風潮。TREC評比的重點隨著研究成果的進展,每年都進行調整。以2002年為例,評比的重點在於參賽者的系統是否能夠準確地定出答案的範圍,而不是以一個固定長度的文字片段當作答案。
完整的問答系統分為兩步驟,第一個步驟是從所有文件中找出與問句相關的文件,此即「資訊檢索」的部分。如何將自然語言問句轉換為適合資訊檢索系統的查詢字串,是個研究課題。第二個步驟是從相關文件中找出問句的答案,此稱為「答案擷取」,這個部分是問答系統主要研究重點。進行「答案擷取」,問答系統必須針對問句進行分析,以取得答案的類型。常見的「答案擷取」方法是利用 “Named Entity Tagging” 的技術,再加上 “問句與上下文相似度的計算”。從簡單的關鍵字比對,到較複雜的語意一致性判斷,都是可能的上下文與問句相似度計算方法 (Harabagiu et al., 2000a; Moldovan and Rus, 2001)。
以網際網路為基礎的問答系統研究,主要是利用網路上常見的搜尋引擎進行資訊檢索,以取得相關文件,再利用與TREC問答系統類似的技術來擷取答案。這種類型的問答系統,必須考量即時性,避免太複雜技術帶來的負擔。目前的研究有Radev et al. (2001)、Radev et al. (2002)、Zheng (2002)、Lin (2002)。另外,網頁文件的一些特性,例如HTML標記、超鏈結、風格差異、內容正確性等,也是在研究上必須考量的議題。
目前大部分問答系統擷取答案方法,主要針對答案類型為Named Entities。對於答案較複雜,沒有固定形式的問句類型,如 “Why … ?” 和 “How does S V?”,則較少有深入的探討與分析。Girju與Moldovan (2002) 曾經探討過回答 “cause-effect questions”,研究因果關係在文中的表達方法。不過這篇文章的重點擺在 NP1 VERB NP2 這種pattern上,其中的動詞必須是個 “causative verb”,例如:“cause”、“lead to”、“make”等。由於這些動詞未必一定代表因果關係,如 “make” 有時的意義為 “製造”,所以研究重點在於如何由VERB、NP1和NP2來判斷是否描述因果關係。
在閱讀測驗問答系統 (reading comprehension) 的研究上, Anand et al. (2000) 和Riloff and Thelen (2000) 也有相關研究。系統針對一篇文章,找到問句的答案。TREC問答系統與這類問答系統主要的不同點是答案來源為多篇相關文件,答案可能重複出現多次,有較多機會找到答案,但雜訊也會比較多。閱讀測驗問答系統則相反,答案可能只出現在文章中一次,所以需要較複雜的方法來找到不是那麼明顯的答案,但另一方面雜訊會比較少。
第2節說明實作系統的架構,以及各個子系統。第3節引用Penn Treebank語料庫,分析擷取答案patterns的準確率。第4節為本系統的效能評估,並與另外兩個以網際網路為基礎的問答系統比較。第5節是結論與未來研究方向。
系統概觀
資訊檢索系統
本文所提的問答系統架構如圖1,只針對單一的問句類型 (也就是以“why”開頭的問句) 進行處理,所以並未包含問句分析子系統,同時我們選擇Google來找出與問句相
您可能关注的文档
- 企业所得税2009年政策汇编.doc
- 企业文化类宣传海报标语目录.doc
- 企业云服务平台建设.doc
- 企业在建项目汇总表.doc
- 企业战略动态选择与实施.ppt
- 企业招用就业困难人员和小微企业招用毕业年度高校毕业生社.ppt
- 企业资产扣除负债后,由所有者享有剩余权益。股份有限公.ppt
- 企业总裁高级研修班.doc
- 任畅冯雪冯雪航赵瑞徐冉.ppt
- 任何能见度行动规则.ppt
- 2025年河南省郑州市管城回族区陇海路街道国民经济和社会发展第十五个五年规划.docx
- 2025年河南省郑州市金水区庙李镇国民经济和社会发展第十五个五年规划.docx
- 2025年河南省濮阳市清丰县韩村乡国民经济和社会发展第十五个五年规划.docx
- 2025年河南省许昌市襄城县双庙乡国民经济和社会发展第十五个五年规划.docx
- 2025年河南省平顶山市卫东区建设路街道国民经济和社会发展第十五个五年规划.docx
- 2025年河南省平顶山市湛河区南环路街道国民经济和社会发展第十五个五年规划.docx
- 2025年河南省郑州市金水区丰产路街道国民经济和社会发展第十五个五年规划.docx
- 2025年河南省平顶山市汝州市骑岭乡国民经济和社会发展第十五个五年规划.docx
- 2025年河南省平顶山市卫东区东安路街道国民经济和社会发展第十五个五年规划.docx
- 2025年河南省驻马店市汝南县官庄乡国民经济和社会发展第十五个五年规划.docx
文档评论(0)