- 8
- 0
- 约2.48万字
- 约 25页
- 2019-03-13 发布于江苏
- 举报
新聞文件摘要之研究
柯淑津 李祥賓
東吳大學資訊科學系
{ksj, ms8805@.tw}
摘 要
本文主要以兩種摘要技巧對路透社新聞文件進行自動文件摘要處理,分別為由語句出
現的位置來判斷其重要性,以及擴充標題詞彙兩種摘要技巧。我們對文件進行分析探
討 ,找出文件主題通常是佔據了哪些位置 ,以擷取這些重要位置的句子為摘要。另外,
我們認為標題對於文件是相當重要的,因此我們透過 WordNet 找尋標題的相關詞彙,
對標題詞彙進行擴充,來找出更多與標題相關的字,增加標題的重要性,進而協助在
文件中找尋與標題較相關的摘要語句。在實驗評估方面,我們提出一個以分類方式進
行自動摘要評估的想法,並建立了一個分類系統來評估摘要結果。最後,本文提出了
一種綜合擴充標題詞彙與重要位置的摘要方法,此方法得到 71.9%分類精確率的實驗
結果,相較於 65.6%的基準分類精確率改善了 9.6% 。
1
新聞文件摘要之研究
1. 簡介
在資訊科技發達的今日,文件已由傳統的書面呈現方式,轉化成數位方式包裝。這些
資訊再藉由無遠弗屆的網際網路傳播到世界上各個角落,因此使用者可以輕易地透過
網路獲得所需求的資訊。
資訊流通的便利性 雖然帶來了豐富的資源, ,但同時 ,也引進了另一個問題 :「資
訊氾濫」 。網路使用者可能都有過這樣的經驗 :當瀏覽線上文件時 發現過多的文件讓,
使用者無法一一詳盡閱讀全文,而只觀看文件的標題又無法掌握到文件的內容,進而
判斷出此文件是否符合自己需求。目前新聞網站的線上新聞就是一個相當好的例子。
如果這些網路新聞在總覽時,能適切地提供精簡摘要來協助使用者選擇自己所需求的
文件。將有助於降低網路傳輸量,進而提升網路服務品質。
這類的文件摘要工作最先是由專業人員以人工方式來進行,雖然這樣的人工摘要
的品質相當好,但遇到大量且更新快速的網路新聞,用這樣的方法就顯得緩不濟急。
然而,自動文件摘要的技術正是解決這個難題的利器。自動文件摘要技術是擷取文章
內重要的訊息出來,經過組合產生較短的摘要,讓使用者可快速地明白這篇文章的主
旨,藉此節省使用者的閱讀時間,而能較快地判斷該篇文章是否為自己想要的文件。
過去文獻中,已有許多相關於文件摘要的研究,而本研究將針對下列兩種摘要策
略進行研究與探討:由位置來判斷文件主題與擴充標題詞彙。並設計實驗來驗證這些
摘要策略是否可擷取出品質良好的摘要內容。另外,對於文件摘要的成效評估,本研
2
究提出了一個新的想法 ,以應用系統來評估摘要結果。我們將摘要結果取代原本文件 ,
進行分類處理。再以分類結果來驗證摘要成效。假若,我們的摘要確實能由文件中擷
取重要資訊,相較於用全文來進行分類,在分類效果上應該會不相上下或是有更好的
精確率。
本篇文章共分為六節,第二節針對過去有關於文件摘要研究的文獻進行回顧。第
三節介紹本文所使用的研究資源,包括路透社新聞語料與含標記詞義訊息的布朗語料
庫。第四節主要探討本研究所使用的兩種摘要策略:由位置來判斷文件主題以及擴充
標題詞彙。另外,在此節中,我們提出一個以分類系統來評估摘要成效的想法。第五
節針對本文提出的摘要方法設計一系列實驗,以路透社新聞語料進行摘要處理,並將
摘要結果送交分類系統,再對分類結果進行討論。最後,我們在第六節提出結論以及
未來研究方向。
2. 相關研究
過去對於文件摘要的研究,多以單一文本為對象,也就是只針對一篇文章內容來進行
摘要處理,應用不同的技巧,來表現出文件中的重要資訊。其中,有些研究透過計算
各詞彙在文件中所擁有的權重 (tf×idf) ,藉此權重值可找出文件中較具重要性的詞彙,
進而擷取出含有重要詞彙的語句來形成摘要(Forsyth and Rada, 1986) 。有的研究則是針
對文章進行資訊擷取(information extraction)處理,找出文章內的人名、地名、組
原创力文档

文档评论(0)