TFIDF观念于自动摘要实作-Read.PPTVIP

  • 28
  • 0
  • 约3.04千字
  • 约 29页
  • 2018-09-02 发布于天津
  • 举报
TFIDF观念于自动摘要实作-Read

TFIDF方法之介紹 指導教授:王宗一 老師 報告者:林群貿 Outline 1.前言 2.TFIDF演算法介紹 3. 應用TFIDF 觀念於自動摘要實作評估 4.結論 前言 詞頻(Term Frequency, TF)的觀念起源於(Luhn,1958) 從進行自動索引的實驗中,為統計詞彙的出現頻率,發現除卻高頻與低頻者,所留下的中頻(middle-frequency)字詞,多半是比較有意義的,因而提出「關鍵字詞適度詞頻論」(resolving power of significant words)。 前言 而後引發日後諸多學者如:Sparck Jones(1972), Salton McGill (1983)等人投入自動文件處理的興趣。 一般自動索引的主題分析主要可以歸納成三種不同的方式: 1.語意(semantic) 2.語法(syntactic) 3.統計(statistical) 統計學派可以說是三種方式中的主流,多數的自動摘要與自動分類也遵循Sparck Jones與Salton所建構,以文件詞彙頻率為主的統計學派。 其中TFIDF方法就是計算文件詞彙頻率,常用的方法。 Term frequency and Document Frequency Term frequency tfij: the numb

文档评论(0)

1亿VIP精品文档

相关文档