- 2
- 0
- 约4.77万字
- 约 384页
- 2024-03-21 发布于山东
- 举报
文本檢索;因此,在提出一個包含其中之一的查詢,那麼應該考慮包含另一個的文檔。解決方法是:預先創建一個把語義相關詞條連接在一起的知識庫(同義詞典或本體集)。然而,這樣的知識庫存在固有的主觀性,因它取決於從何種角度來把詞條和語義內容聯繫起來。
隱含語義索引(latentsemanticindexing)(LSI)—一種可選的有趣又有價值的方法。該方法不是僅使用詞條出現資訊,而是從文本中提取出隱藏的語義結構資訊。;實際上,LSI採用T維詞條空間中前k個主成分來近似原始的T維詞條空間,使用N×T的文檔-詞條來估計這個方向。
主成分方法的直觀解釋是,由原始詞條的加權組合所構成的單個向量可以非常好的近似由大得多的向量集合所起的效果。於是可以把原來的N×T大小的文檔-詞條矩陣簡化為N×k的矩陣(kT),
對於固定的查全率,和前面討論的向量空間方法相比,LSI可以提高查準率。;對表9-2中的矩陣M計算奇異分解式(SVD)。;目標是,找一個分解式M=USVT。式中U是一個10×6的矩陣,它的每一行是相對特定文檔的權向量,S是每個主成分方向特徵值的6×6對角陣,6×6的矩陣VT的各列提供了數據的新共軛基,被稱為主成分方向。
S矩陣的對角線元素是(協方差矩陣對應…):
λ1,…,λn={77.4,69.5,22.9,13.5,12.1,4.8
您可能关注的文档
最近下载
- 2025年7月云南省普通高中学业水平合格性考试地理仿真模拟卷01(春季高考适用)(解析版).docx
- 医疗机构眼科医疗质量控制指标(试行).docx
- GRI全球报告倡议组织标准GRI 3- Topic Materials 2021 - Simplified Chinese.pdf VIP
- 2024年海南海口实验中学自主招生化学试题真题(含答案详解).docx VIP
- 重症监护室获得性吞咽障碍识别及管理的最佳证据总结PPT.pptx VIP
- 国际营销英文版 18.docx VIP
- 2025年深圳市中考生物试题卷(含答案).docx
- DB37T 2663.6—2020集约化穴盘育苗技术规程 第6部分:叶用莴苣.docx VIP
- 2024年09月04日海南正奕木业有限公司海南正奕木业有限公司木材加工项目.pdf VIP
- GRI全球报告倡议组织标准GRI 2- General Disclosures 2021 - Simplified Chinese.pdf VIP
原创力文档

文档评论(0)