基于文档频率的特征选择方法.pptxVIP

下载本文档

17
0
约1.59千字
约 14页
2017-06-03 发布于湖北
举报

基于文档频率的特征选择方法.pptx

基于文档频率的特征选择方法

基於文檔頻率的特徵選擇方法文檔頻率方法（Document Frequency）是一種基於統計的特徵選擇方法。根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序，保留出現頻率高的前若干個特徵詞構成特徵向量。 DF 方法相比增益方法(IG)、互資訊方法(MI)、開方擬和檢驗方法(CHI) 實現簡單、演算法複雜度低。 DF的特點與改進文本分類時選用基於 DF 的方法完成特徵選擇，即根據特徵詞在類別中出現的文檔頻率(Document Frequency, DF)對特徵詞進行排序，保留出現頻率高的前若干個特徵詞構成特徵向量。但傳統的 DF 方法僅考慮了特徵詞在類別中出現的文檔頻率(DF)進行特徵選擇，沒有考慮特徵詞在每篇文檔中出現的詞頻率(TF)對分類效果的影響。實驗準備文檔數：超過 600 個； 8 個類別。文檔分為訓練集與測試集。步驟（1）分詞：使用 ICTCLAS 系統對這 8 個類別的訓練集和測試集文檔進行分詞處理和詞性標注。得到每篇文檔的特徵詞清單後，刪除其中對分類無貢獻的詞性的詞(在本文中僅保留了名詞)、停用詞和單字詞。每篇文檔被表示如下所示的特徵詞向量。 Termi(1≤i≤n)為在這篇文檔中出現的特徵詞， n為在這篇文檔中出現的特徵詞的個數。步驟（2）文檔向量的構成：計算每篇文檔中每個特徵詞的 FT ′值。詞頻率(Term Frequency, TF)：一個特徵詞在一篇文檔中的出現次數 1≤i≤nt，nt 為在一篇文檔中出現的特徵詞的總數， TFi為第 i 個特徵詞在這篇文檔中的出現次數。步驟（2）文檔向量的構成：根據式(3)給出的規則完成對每個特徵詞的 FT ′值的二值化處理。Tmax人為設定。如果一個特徵詞在一篇文檔中出現，則將其 TF’值置為 0；如果一個特徵詞在一篇文檔中以高頻出現，則將其 TF’值補充一個置為 1。低頻高頻步驟（2）文檔向量的構成：每篇文檔被表示為如下所示的特徵詞向量。實驗步驟（3）類特徵向量的構成：統計每個特徵詞在每個類別中出現的文檔頻率，根據以下公式，計算每個特徵詞在每個類別中的 DF′值。 DFt為特徵詞在類別 c 中出現的文檔數； Nc 為類別c 中的文檔總數。實驗步驟（3）類特徵向量的構成：設定一個門檻Dmin，刪除 DF ′值小於Dmin的特徵詞，再刪除相似頻率出在多個類別中的特徵詞。將剩餘的特徵詞根據其 DF′值按降冪排列。對於 TF′ = 0和 TF′ = 1 的特徵詞分別排序。取 TF′ = 0的前 n0（paper採用500）個特徵詞和 TF′ = 1的前 n1（paper採用100）個特徵詞構成類特徵向量。如下所示。 1≤i≤nc， nc 為類別的個數， n 代表經過特徵選擇後保留下來表示類別 Ci 的特徵詞的個數。實驗步驟（4）分類器構造：本文選用對於文本分類效果較好的支援向量機(Support Vector Machine, SVM)方法來訓練分類器，完成分類性能的測試。具體如下：將特徵詞向量轉換為實數向量。對每篇文檔使用規則構造對每個類別的訓練和測試集，實現文檔向量的實數化。實驗步驟（4）分類器構造：其中，1≤p≤n， n 為表示類 Ci 的特徵向量中的特徵詞的個數； Docm 為第 m 個文檔。文檔特徵詞向量類特徵詞向量實驗步驟（4）分類器構造：得到SVM 方法需要的資料格式。先使用 TF′= 0 的特徵詞構成類特徵向量，進行分類器的訓練和測試；再補充高詞頻(即 TF′= 1)特徵詞構成類特徵向量，進行分類實驗。實驗步驟（5）結論：在進行特徵選擇時，補充部分高詞頻特徵詞可以提高分類的召回率和準確率。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于文档频率的特征选择方法.pptxVIP