构建一个中文国小数学文字问题语料库-InstituteofInformation.PDFVIP

  • 28
  • 0
  • 约2.89万字
  • 约 20页
  • 2018-11-16 发布于天津
  • 举报

构建一个中文国小数学文字问题语料库-InstituteofInformation.PDF

构建一个中文国小数学文字问题语料库-InstituteofInformation

構建一個中文國小數學文字問題語料庫 繆慎耘 Shen-Yun Miao 中央研究院資訊科學研究所 Institute of Information Science Academia Sinica jackymiu @.tw 林素朱 Su-Chu Lin 中央研究院資訊科學研究所 Institute of Information Science Academia Sinica jess@iis.sinic .tw 馬偉雲 Wei-Yun Ma 中央研究院資訊科學研究所 Institute of Information Science Academia Sinica ma@.tw 蘇克毅 Keh-Yih Su 中央研究院資訊科學研究所 Institute of Information Science Academia Sinica kysu@.tw 摘要 本篇論文提出了一個理想數學文字問題語料庫所應具備的特性,並敘述我們如何建置一 個完善的中文國小數學文字問題語料庫 :其過程、所標註的內容、以及遭遇的困難。求 解數學文字問題是自然語言理解在人工智慧領域的一個常見應用。近年來有關於英文數 學文字問題的研究,都是以機器學習的方法為主。但不論是執行機器學習,或比較不同 的解題系統,都需要一個完善的語料庫。目前國際上雖然已有數個公開的英文數學文字 問題題庫,但他們所收錄的數學題庫多偏頗於自家解題系統的特性,難以公平評估各系 統的真實性能。而在中文方面,迄今尚無任何一個公開的數學文字問題題庫可資使用。 為了能有一個可供研究使用的數學文字問題語料庫,並修正前述英文題庫之缺失, 我們建立了一個頗具規模的中文國小數學文字問題語料庫。此語料庫原始資料是由台灣 三個國小教科書及參考書的出版社所授權提供。為完整提供所有的數學文字問題題型及 內容,我們僅僅清除了無關解題的垃圾符號,並不增刪原始內容,以完整呈現文字敘述 之原貌。此外,我們還加註了額外的訊息,並在部分題目上標註題型和語言分析,以助 研究者瞭解數學文字問題之特性及建立模型。 本語料庫是第一個完整的中文國小數學文字問題語料庫。依各個年級分類,含有數 種補充資訊,便於評估各解題系統的解題能力;亦可讓使用者按個別應用需求,塑造不 同組態的特殊語料庫,將有助於從事相關研究者之工作。 關鍵詞:數學文字問題 ,語料庫 ,標註 1. 緒論 求解數學文字問題(Math Word Problem)[1-4] ,基於以下的原因[3, 4]常被選作研究自然語 言理解的測試案例:(1) 數學文字問題的答案,無法單純地藉由實行關鍵字或特徵配對 被擷取(如傳統的問答(QA )系統),因此可以清楚地顯示出理解和推理的優勢。(2) 與其他領域相比,數學文字問題通常不具有那麼複雜的語法(如人文社會領域),並僅 需要少量的領域知識(與物理化學領域相較),因此研究人員可以著重於自然語言理解 和推理的任務上。(3) 數學文字問題的“主幹”部分(即描述問題給定資訊的部分),通常 只由少數句子組成,因此理解和推理過程能被程式快速執行,加速研發進程。(4) 數學 文字問題求解器有實際的應用,如小學數

文档评论(0)

1亿VIP精品文档

相关文档