- 17
- 0
- 约1.59千字
- 约 14页
- 2017-06-03 发布于湖北
- 举报
基于文档频率的特征选择方法
基於文檔頻率的特徵選擇方法
文檔頻率方法(Document Frequency)
是一種基於統計的特徵選擇方法。
根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序,保留出現頻率高的前若干個特徵詞構成特徵向量。
DF 方法相比
增益方法(IG)、互資訊方法(MI)、開方擬和檢驗方法(CHI)
實現簡單、演算法複雜度低。
DF的特點與改進
文本分類時選用基於 DF 的方法完成特徵選擇,即根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序,保留出現頻率高的前若干個特徵詞構成特徵向量。
但傳統的 DF 方法僅考慮了特徵詞在類別中出現的文檔頻率(DF)進行特徵選擇,沒有考慮特徵詞在每篇文檔中出現的詞頻率(TF)對分類效果的影響。
實驗準備
文檔數:超過 600 個; 8 個類別。
文檔分為訓練集與測試集。
步驟(1)分詞:
使用 ICTCLAS 系統對這 8 個類別的訓練集和測試集文檔進行分詞處理和詞性標注。
得到每篇文檔的特徵詞清單後,刪除其中對分類無貢獻的詞性的詞(在本文中僅保留了名詞)、停用詞和單字詞。
每篇文檔被表示如下所示的特徵詞向量。
Termi(1≤i≤n)為在這篇文檔中出現的特徵詞,
n為在這篇文檔中出現的特徵詞的個數。
步驟(2)文檔向量的構成 :
計算每篇文檔中每個特徵詞的 FT ′值。
詞頻率(Term Frequency, TF):一個特徵詞在一篇文檔中的出現次數
1≤i≤nt,nt 為在一篇文檔中出現的特徵詞的總數,
TFi為第 i 個特徵詞在這篇文檔中的出現次數。
步驟(2)文檔向量的構成 :
根據式(3)給出的規則完成對每個特徵詞的 FT ′值的二值化處理。Tmax人為設定。
如果一個特徵詞在一篇文檔中出現,則將其 TF’值置為 0;
如果一個特徵詞在一篇文檔中以高頻出現,則將其 TF’值補充一個置為 1。
低頻
高頻
步驟(2)文檔向量的構成 :
每篇文檔被表示為如下所示的特徵詞向量。
實驗步驟(3)類特徵向量的構成:
統計每個特徵詞在每個類別中出現的文檔頻率,根據以下公式,計算每個特徵詞在每個類別中的 DF′值。
DFt為特徵詞在類別 c 中出現的文檔數;
Nc 為類別c 中的文檔總數。
實驗步驟(3)類特徵向量的構成:
設定一個門檻Dmin,刪除 DF ′值小於Dmin的特徵詞,再刪除相似頻率出在多個類別中的特徵詞。
將剩餘的特徵詞根據其 DF′值按降冪排列。
對於 TF′ = 0和 TF′ = 1 的特徵詞分別排序。取 TF′ = 0的前 n0(paper採用500)個特徵詞和 TF′ = 1的前 n1(paper採用100) 個特徵詞構成類特徵向量。如下所示。
1≤i≤nc,
nc 為類別的個數,
n 代表經過特徵選擇後保留下來表示類別 Ci 的特徵詞的個數。
實驗步驟(4)分類器構造 :
本文選用對於文本分類效果較好的支援向量機(Support Vector Machine, SVM)方法來訓練分類器,完成分類性能的測試。具體如下:
將特徵詞向量轉換為實數向量。對每篇文檔使用規則構造對每個類別的訓練和測試集,實現文檔向量的實數化。
實驗步驟(4)分類器構造 :
其中,1≤p≤n,
n 為表示類 Ci 的特徵向量中的特徵詞的個數;
Docm 為第 m 個文檔。
文檔特徵詞向量
類特徵詞向量
實驗步驟(4)分類器構造 :
得到SVM 方法需要的資料格式。
先使用 TF′= 0 的特徵詞構成類特徵向量,進行分類器的訓練和測試;
再補充高詞頻(即 TF′= 1)特徵詞構成類特徵向量,進行分類實驗。
實驗步驟(5)結論:
在進行特徵選擇時,補充部分高詞頻特徵詞可以提高分類的召回率和準確率。
原创力文档

文档评论(0)