Topic-WordSelectionBasedonCombinatorialProbability.pptVIP

  • 1
  • 0
  • 约2.91千字
  • 约 27页
  • 2017-01-17 发布于天津
  • 举报

Topic-WordSelectionBasedonCombinatorialProbability.ppt

Topic-WordSelectionBasedonCombinatorialProbability

Topic-Word Selection Based on Combinatorial Probability Toru Hisamitsu Yoshiki Niwa In Proceedings of the Sixth Natural Language Processing Pacific Rim Symposium (NLPRS), pp. 289-296, 2001. この論文のポイント 文書集合から部分文書集合を得たとき,その部分文書集合の中で「特徴的な」語に重みを付ける方法を探求する 超幾何分布を応用した単語重み付け方法について考える TF*IDFやカイ二乗検定など,いくつかの重み付け方法を比較し,おのおのの傾向について考察する 文書集合を特徴づける語を見出す 情報検索,文書分類,文書クラスタリング,情報抽出において基本的なタスク 例)重要でない単語を除いて文書の類似度を計算したほうが高精度 (Sebastiani, 1999) DualNaviの例 問題設定 全体文書集合から,語wを含む文書を検索して,部分文書集合Dwを得たとする 語wで検索する場合に限らず,何らかの方法(例えばクラスタリングなど)で部分文書集合Dwを得たと考えても良い この部分文書集合Dwに含まれる語vが,どのくらい特徴的に出現しているのか,測りたい 従来手法 tf tf/TF tf*idf SMA

文档评论(0)

1亿VIP精品文档

相关文档