新闻文件摘要之研究.pdfVIP

下载本文档

8
0
约2.48万字
约 25页
2019-03-13 发布于江苏
举报

新闻文件摘要之研究.pdf

新聞文件摘要之研究柯淑津李祥賓東吳大學資訊科學系 {ksj, ms8805@.tw} 摘要本文主要以兩種摘要技巧對路透社新聞文件進行自動文件摘要處理，分別為由語句出現的位置來判斷其重要性，以及擴充標題詞彙兩種摘要技巧。我們對文件進行分析探討，找出文件主題通常是佔據了哪些位置，以擷取這些重要位置的句子為摘要。另外，我們認為標題對於文件是相當重要的，因此我們透過 WordNet 找尋標題的相關詞彙，對標題詞彙進行擴充，來找出更多與標題相關的字，增加標題的重要性，進而協助在文件中找尋與標題較相關的摘要語句。在實驗評估方面，我們提出一個以分類方式進行自動摘要評估的想法，並建立了一個分類系統來評估摘要結果。最後，本文提出了一種綜合擴充標題詞彙與重要位置的摘要方法，此方法得到 71.9%分類精確率的實驗結果，相較於 65.6%的基準分類精確率改善了 9.6% 。 1 新聞文件摘要之研究 1. 簡介在資訊科技發達的今日，文件已由傳統的書面呈現方式，轉化成數位方式包裝。這些資訊再藉由無遠弗屆的網際網路傳播到世界上各個角落，因此使用者可以輕易地透過網路獲得所需求的資訊。資訊流通的便利性雖然帶來了豐富的資源，，但同時，也引進了另一個問題：「資訊氾濫」。網路使用者可能都有過這樣的經驗：當瀏覽線上文件時發現過多的文件讓，使用者無法一一詳盡閱讀全文，而只觀看文件的標題又無法掌握到文件的內容，進而判斷出此文件是否符合自己需求。目前新聞網站的線上新聞就是一個相當好的例子。如果這些網路新聞在總覽時，能適切地提供精簡摘要來協助使用者選擇自己所需求的文件。將有助於降低網路傳輸量，進而提升網路服務品質。這類的文件摘要工作最先是由專業人員以人工方式來進行，雖然這樣的人工摘要的品質相當好，但遇到大量且更新快速的網路新聞，用這樣的方法就顯得緩不濟急。然而，自動文件摘要的技術正是解決這個難題的利器。自動文件摘要技術是擷取文章內重要的訊息出來，經過組合產生較短的摘要，讓使用者可快速地明白這篇文章的主旨，藉此節省使用者的閱讀時間，而能較快地判斷該篇文章是否為自己想要的文件。過去文獻中，已有許多相關於文件摘要的研究，而本研究將針對下列兩種摘要策略進行研究與探討：由位置來判斷文件主題與擴充標題詞彙。並設計實驗來驗證這些摘要策略是否可擷取出品質良好的摘要內容。另外，對於文件摘要的成效評估，本研 2 究提出了一個新的想法，以應用系統來評估摘要結果。我們將摘要結果取代原本文件，進行分類處理。再以分類結果來驗證摘要成效。假若，我們的摘要確實能由文件中擷取重要資訊，相較於用全文來進行分類，在分類效果上應該會不相上下或是有更好的精確率。本篇文章共分為六節，第二節針對過去有關於文件摘要研究的文獻進行回顧。第三節介紹本文所使用的研究資源，包括路透社新聞語料與含標記詞義訊息的布朗語料庫。第四節主要探討本研究所使用的兩種摘要策略：由位置來判斷文件主題以及擴充標題詞彙。另外，在此節中，我們提出一個以分類系統來評估摘要成效的想法。第五節針對本文提出的摘要方法設計一系列實驗，以路透社新聞語料進行摘要處理，並將摘要結果送交分類系統，再對分類結果進行討論。最後，我們在第六節提出結論以及未來研究方向。 2. 相關研究過去對於文件摘要的研究，多以單一文本為對象，也就是只針對一篇文章內容來進行摘要處理，應用不同的技巧，來表現出文件中的重要資訊。其中，有些研究透過計算各詞彙在文件中所擁有的權重 (tf×idf) ，藉此權重值可找出文件中較具重要性的詞彙，進而擷取出含有重要詞彙的語句來形成摘要(Forsyth and Rada, 1986) 。有的研究則是針對文章進行資訊擷取(information extraction)處理，找出文章內的人名、地名、組

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

新闻文件摘要之研究.pdfVIP