tfidf觀念於自動摘要實作評估-read.ppt

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
tfidf觀念於自動摘要實作評估-read

Outline 1.前言 2.TFIDF演算法介紹 3. 應用TFIDF 觀念於自動摘要實作評估 4.結論 前言 詞頻 Term Frequency, TF 的觀念起源於 Luhn,1958 從進行自動索引的實驗中,為統計詞彙的出現頻率,發現除卻高頻與低頻者,所留下的中頻(middle-frequency)字詞,多半是比較有意義的,因而提出「關鍵字詞適度詞頻論」 resolving power of significant words 。 前言 而後引發日後諸多學者如:Sparck Jones 1972 , Salton McGill 1983 等人投入自動文件處理的興趣。 一般自動索引的主題分析主要可以歸納成三種不同的方式: 1.語意(semantic) 2.語法(syntactic) 3.統計(statistical) 統計學派可以說是三種方式中的主流,多數的自動摘要與自動分類也遵循Sparck Jones與Salton所建構,以文件詞彙頻率為主的統計學派。 其中TFIDF方法就是計算文件詞彙頻率,常用的方法。 Term frequency and Document Frequency Term frequency tfij: the number of occurrences of Tj in Di Document Frequency dfj : document frequency of term Tj is number of documents in which Tj occurs Inverse Document Frequency Inverse Document Frequency IDF for term Tj 應用TFIDF 觀念於自動摘要實作評估 嘗試以文句中重要關鍵詞出現的頻率及其與逆向文件的關係,推估句子的重要性,採TFIDF 觀念用以計算句子權重,並擷取權重值排行在前的句子用以組合成摘要。 擷取網路的超文件 以聯合新聞網、中央日報網和台灣新生報網三個網站的文件為擷取對象。其中聯合新聞網的文章篇數計擷取18758 筆、中央日報的新聞11864 篇,台灣新聞報則是摘取近三年來的社論資料544 筆。總計類別包括了社論、經貿、政治、科技、藝文專欄、國際新聞、休閒等七類。 關鍵詞萃取作業 英文:對於英文的處理,我們透過多重判斷處理 包括半形字元、全形字元、全形符號字元及注音符號處理 之後,利用停用字詞 表去除停用字 Stopword ,再將英文關鍵字載入表格。 關鍵詞萃取作業 中文: 在字詞處理方面,本研究以詞庫斷詞法進行斷詞作業,為顧及辭彙的有效及新穎性,採中研院八萬詞目,加上最近教育部國語推行委員會所公佈的新詞語料庫,進行關鍵詞的篩選。 關鍵詞萃取作業 以2 字詞到9 字詞為主,並以長詞為優先選取對象。基於字數越長的詞出現的機率越少,實質代表的意義卻越重要,因此對於字詞長度均以加乘本身字數的方式,進行加權 如:〔知識〕出現10 次,轉換後〔10次*2 字詞 20 次〕,〔知識管理〕原出現5次,轉換後〔5 次*4 字詞 20 次〕,藉由加權方式,以提高長詞的詞頻權重。 重要句子擷取作業 字詞選取原則須符合詞頻要夠、類別集中 conformity 、本類分佈廣 Uniformity 的原則。因此關鍵詞彙的權重多以詞頻與逆向文件頻率的內積 TF * IDF 計算出,句子的權重則包括所有出現在該句子的重要詞彙權重總合。 計算公式如下: 1 TFij 代表單字j 在文件I 的出現頻率 2 N:代表所有文件的總數 dfj :代表單字j 有出現過的文章總數 這兩者相乘之後,即代表修正過後的關鍵詞TFij在文件D的加權 weight ,如下式所述: 句子中各個詞彙的TF*IDF 值經算出後, 進行加總所得出的值,即象徵該句子的權重。 例 若有一個關鍵詞 ”大學“ 在一篇文章出現10 次,而此篇文章共有100個關鍵詞,所有文件集合共有10000篇文章,而 ”大學”一詞在10000篇文章內,曾出現在5篇文章 TF 10/100 0.1 IDF log 10000/5 ≒11 加權值 0.1*11 1.1 產生自動摘要 摘要的目的在於產生一個言簡意垓的文件描述,它應比文件標題更具敘述性,但又短的可讓人一眼就明瞭內文意旨。利用 TFIDF方法用以計算句子權重,並擷取權重值排行在前的句子用以組合成摘要。 摘要的評估一般認為是一件困難且主觀的工作,所以以人工評選句子的交集率作為比對依據。文件樣本乃隨機抽取自實驗資料庫中,字數在1000 字以上的文件60 篇,每篇文件由三位受測者進行評選,每位受測者最多評選5 篇。

文档评论(0)

2105194781 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档