数据挖掘课件.pptxVIP

  • 2
  • 0
  • 约4.77万字
  • 约 384页
  • 2024-03-21 发布于山东
  • 举报

文本檢索;因此,在提出一個包含其中之一的查詢,那麼應該考慮包含另一個的文檔。解決方法是:預先創建一個把語義相關詞條連接在一起的知識庫(同義詞典或本體集)。然而,這樣的知識庫存在固有的主觀性,因它取決於從何種角度來把詞條和語義內容聯繫起來。

隱含語義索引(latentsemanticindexing)(LSI)—一種可選的有趣又有價值的方法。該方法不是僅使用詞條出現資訊,而是從文本中提取出隱藏的語義結構資訊。;實際上,LSI採用T維詞條空間中前k個主成分來近似原始的T維詞條空間,使用N×T的文檔-詞條來估計這個方向。

主成分方法的直觀解釋是,由原始詞條的加權組合所構成的單個向量可以非常好的近似由大得多的向量集合所起的效果。於是可以把原來的N×T大小的文檔-詞條矩陣簡化為N×k的矩陣(kT),

對於固定的查全率,和前面討論的向量空間方法相比,LSI可以提高查準率。;對表9-2中的矩陣M計算奇異分解式(SVD)。;目標是,找一個分解式M=USVT。式中U是一個10×6的矩陣,它的每一行是相對特定文檔的權向量,S是每個主成分方向特徵值的6×6對角陣,6×6的矩陣VT的各列提供了數據的新共軛基,被稱為主成分方向。

S矩陣的對角線元素是(協方差矩陣對應…):

λ1,…,λn={77.4,69.5,22.9,13.5,12.1,4.8

文档评论(0)

1亿VIP精品文档

相关文档