中英多文件摘要系统之研究.pptVIP

  • 0
  • 0
  • 约5.36千字
  • 约 42页
  • 2017-02-16 发布于湖北
  • 举报
中英多文件摘要系統之研究 指導教授:陳信希博士 研究生:蘇哲君 動機(想法的出發點) 大量資料充斥 雙語(多語)的閱讀人口大量增加 但每人還是有特定一種的偏好語言 透過文件的分析,將文件以最大的彈性來呈現,降低語言之間的隔閡所造成的影響。 先前的研究 本實驗室 (Chen, Chen, Huang and Lin, 1998) 以句子中的名詞和動詞來計算句子的重要性,藉以產生文件的摘要。 本實驗室 (黃聖傑, 1999) 多文件自動摘要方法研究 目標 一個跨語言的文件瀏覽系統 將來自不同語言的新聞文件依事件加以分群 分析描寫同一事件的每篇文章之間的異同 文件摘要的呈現 架構 主要課題 如何將中英文件轉換成「可比較的文件」? 中英文間如何評量相似程度? 字(詞)的層次 語句的層次 文件的層次 摘要的呈現方式 文件前置處理 擷取資料 資料來源: 中文:中央社中文新聞、中央日報、中國時報中文新聞、聯合報(中英對照中文部分) 英文:中央社英文新聞、ChinaPost、中國時報英文新聞、聯合報(中英對照英文部分) 針對每家不同來源的新聞(html)作文章擷取的動作 文件前置處理 將來自中文與英文的文件經過處理成為可比較的單位 文件前置處理(中文部分) 句子(義元)的切割(黃聖傑, 1999) 中文的句子中,往往一句中含有多個的含義 而在國政基金會民調中,受訪者也同時對民進黨缺乏人才表達憂

文档评论(0)

1亿VIP精品文档

相关文档