新闻文件摘要之研究.pdfVIP

  • 8
  • 0
  • 约2.48万字
  • 约 25页
  • 2019-03-13 发布于江苏
  • 举报
新聞文件摘要之研究 柯淑津 李祥賓 東吳大學資訊科學系 {ksj, ms8805@.tw} 摘 要 本文主要以兩種摘要技巧對路透社新聞文件進行自動文件摘要處理,分別為由語句出 現的位置來判斷其重要性,以及擴充標題詞彙兩種摘要技巧。我們對文件進行分析探 討 ,找出文件主題通常是佔據了哪些位置 ,以擷取這些重要位置的句子為摘要。另外, 我們認為標題對於文件是相當重要的,因此我們透過 WordNet 找尋標題的相關詞彙, 對標題詞彙進行擴充,來找出更多與標題相關的字,增加標題的重要性,進而協助在 文件中找尋與標題較相關的摘要語句。在實驗評估方面,我們提出一個以分類方式進 行自動摘要評估的想法,並建立了一個分類系統來評估摘要結果。最後,本文提出了 一種綜合擴充標題詞彙與重要位置的摘要方法,此方法得到 71.9%分類精確率的實驗 結果,相較於 65.6%的基準分類精確率改善了 9.6% 。 1 新聞文件摘要之研究 1. 簡介 在資訊科技發達的今日,文件已由傳統的書面呈現方式,轉化成數位方式包裝。這些 資訊再藉由無遠弗屆的網際網路傳播到世界上各個角落,因此使用者可以輕易地透過 網路獲得所需求的資訊。 資訊流通的便利性 雖然帶來了豐富的資源, ,但同時 ,也引進了另一個問題 :「資 訊氾濫」 。網路使用者可能都有過這樣的經驗 :當瀏覽線上文件時 發現過多的文件讓, 使用者無法一一詳盡閱讀全文,而只觀看文件的標題又無法掌握到文件的內容,進而 判斷出此文件是否符合自己需求。目前新聞網站的線上新聞就是一個相當好的例子。 如果這些網路新聞在總覽時,能適切地提供精簡摘要來協助使用者選擇自己所需求的 文件。將有助於降低網路傳輸量,進而提升網路服務品質。 這類的文件摘要工作最先是由專業人員以人工方式來進行,雖然這樣的人工摘要 的品質相當好,但遇到大量且更新快速的網路新聞,用這樣的方法就顯得緩不濟急。 然而,自動文件摘要的技術正是解決這個難題的利器。自動文件摘要技術是擷取文章 內重要的訊息出來,經過組合產生較短的摘要,讓使用者可快速地明白這篇文章的主 旨,藉此節省使用者的閱讀時間,而能較快地判斷該篇文章是否為自己想要的文件。 過去文獻中,已有許多相關於文件摘要的研究,而本研究將針對下列兩種摘要策 略進行研究與探討:由位置來判斷文件主題與擴充標題詞彙。並設計實驗來驗證這些 摘要策略是否可擷取出品質良好的摘要內容。另外,對於文件摘要的成效評估,本研 2 究提出了一個新的想法 ,以應用系統來評估摘要結果。我們將摘要結果取代原本文件 , 進行分類處理。再以分類結果來驗證摘要成效。假若,我們的摘要確實能由文件中擷 取重要資訊,相較於用全文來進行分類,在分類效果上應該會不相上下或是有更好的 精確率。 本篇文章共分為六節,第二節針對過去有關於文件摘要研究的文獻進行回顧。第 三節介紹本文所使用的研究資源,包括路透社新聞語料與含標記詞義訊息的布朗語料 庫。第四節主要探討本研究所使用的兩種摘要策略:由位置來判斷文件主題以及擴充 標題詞彙。另外,在此節中,我們提出一個以分類系統來評估摘要成效的想法。第五 節針對本文提出的摘要方法設計一系列實驗,以路透社新聞語料進行摘要處理,並將 摘要結果送交分類系統,再對分類結果進行討論。最後,我們在第六節提出結論以及 未來研究方向。 2. 相關研究 過去對於文件摘要的研究,多以單一文本為對象,也就是只針對一篇文章內容來進行 摘要處理,應用不同的技巧,來表現出文件中的重要資訊。其中,有些研究透過計算 各詞彙在文件中所擁有的權重 (tf×idf) ,藉此權重值可找出文件中較具重要性的詞彙, 進而擷取出含有重要詞彙的語句來形成摘要(Forsyth and Rada, 1986) 。有的研究則是針 對文章進行資訊擷取(information extraction)處理,找出文章內的人名、地名、組

文档评论(0)

1亿VIP精品文档

相关文档