基于文档频率的特征选择方法.pptxVIP

  • 17
  • 0
  • 约1.59千字
  • 约 14页
  • 2017-06-03 发布于湖北
  • 举报
基于文档频率的特征选择方法

基於文檔頻率的特徵選擇方法 文檔頻率方法 (Document Frequency) 是一種基於統計的特徵選擇方法。 根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序,保留出現頻率高的前若干個特徵詞構成特徵向量。 DF 方法相比 增益方法(IG)、互資訊方法(MI)、開方擬和檢驗方法(CHI) 實現簡單、演算法複雜度低。 DF的特點與改進 文本分類時選用基於 DF 的方法完成特徵選擇,即根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序,保留出現頻率高的前若干個特徵詞構成特徵向量。 但傳統的 DF 方法僅考慮了特徵詞在類別中出現的文檔頻率(DF)進行特徵選擇,沒有考慮特徵詞在每篇文檔中出現的詞頻率(TF)對分類效果的影響。 實驗準備 文檔數:超過 600 個; 8 個類別。 文檔分為訓練集與測試集。 步驟(1)分詞: 使用 ICTCLAS 系統對這 8 個類別的訓練集和測試集文檔進行分詞處理和詞性標注。 得到每篇文檔的特徵詞清單後,刪除其中對分類無貢獻的詞性的詞(在本文中僅保留了名詞)、停用詞和單字詞。 每篇文檔被表示如下所示的特徵詞向量。 Termi(1≤i≤n)為在這篇文檔中出現的特徵詞, n為在這篇文檔中出現的特徵詞的個數。 步驟(2)文檔向量的構成 : 計算每篇文檔中每個特徵詞的 FT ′值。 詞頻率(Term Frequency, TF):一個特徵詞在一篇文檔中的出現次數 1≤i≤nt,nt 為在一篇文檔中出現的特徵詞的總數, TFi為第 i 個特徵詞在這篇文檔中的出現次數。 步驟(2)文檔向量的構成 : 根據式(3)給出的規則完成對每個特徵詞的 FT ′值的二值化處理。Tmax人為設定。 如果一個特徵詞在一篇文檔中出現,則將其 TF’值置為 0; 如果一個特徵詞在一篇文檔中以高頻出現,則將其 TF’值補充一個置為 1。 低頻 高頻 步驟(2)文檔向量的構成 : 每篇文檔被表示為如下所示的特徵詞向量。 實驗步驟(3)類特徵向量的構成: 統計每個特徵詞在每個類別中出現的文檔頻率,根據以下公式,計算每個特徵詞在每個類別中的 DF′值。 DFt為特徵詞在類別 c 中出現的文檔數; Nc 為類別c 中的文檔總數。 實驗步驟(3)類特徵向量的構成: 設定一個門檻Dmin,刪除 DF ′值小於Dmin的特徵詞,再刪除相似頻率出在多個類別中的特徵詞。 將剩餘的特徵詞根據其 DF′值按降冪排列。 對於 TF′ = 0和 TF′ = 1 的特徵詞分別排序。取 TF′ = 0的前 n0(paper採用500)個特徵詞和 TF′ = 1的前 n1(paper採用100) 個特徵詞構成類特徵向量。如下所示。 1≤i≤nc, nc 為類別的個數, n 代表經過特徵選擇後保留下來表示類別 Ci 的特徵詞的個數。 實驗步驟(4)分類器構造 : 本文選用對於文本分類效果較好的支援向量機(Support Vector Machine, SVM)方法來訓練分類器,完成分類性能的測試。具體如下: 將特徵詞向量轉換為實數向量。對每篇文檔使用規則構造對每個類別的訓練和測試集,實現文檔向量的實數化。 實驗步驟(4)分類器構造 : 其中,1≤p≤n, n 為表示類 Ci 的特徵向量中的特徵詞的個數; Docm 為第 m 個文檔。 文檔特徵詞向量 類特徵詞向量 實驗步驟(4)分類器構造 : 得到SVM 方法需要的資料格式。 先使用 TF′= 0 的特徵詞構成類特徵向量,進行分類器的訓練和測試; 再補充高詞頻(即 TF′= 1)特徵詞構成類特徵向量,進行分類實驗。 實驗步驟(5)結論: 在進行特徵選擇時,補充部分高詞頻特徵詞可以提高分類的召回率和準確率。

文档评论(0)

1亿VIP精品文档

相关文档