倒排表 倒排表例子 倒排表存储结构 特征文件( signature file ) ? 定义:是一个存储数据库中每一个文档的特征记录的文件 ? 方法:每一个特征对应一个固定长度的位串,一个比特位对 应一个词汇,若某一位对应的词出现在文档中,则该位置 1 , 否则置 0 。 ? S 1 ? S 2 ? 按位操作进行匹配,确定文档的相似形 ? 可以多词对应一个比特位,来减少位串的长度,但增加搜素开销, 存在多对一映射的缺点。 1 1 1 … 1 1 1 0 … 1 2.4 查询处理技术 ? 创建倒排索引,查找包含关键词的文档,检索系 统可以迅速回答关键词查询。 ? 相关反馈:在获得相关文档的实例后,系统可以 从实例学习提高检索的性能。 ? 伪反馈(盲目反馈):当没有这些相关实例时, 系统可以假设在初始的检索结果中的前几个检索 的文档是相关的,并提取更多相关的关键词来扩 展查询。 关键词检索存在的问题 ? 同义词问题: 具有相同或相近含义的两个词具有很不相同 的外在形式。例如:用户的查询使用词“ automobile ”, 而相关文档用的不是“ automobile ”,而是“ vehicle ”。 ? 多义词问题: 相同的关键词,如“ mining ”或“ java ”在 不同的上下文中可能意味着不同的事物。 3. 文本的维度规约 ? 对于任何一个非平凡的文档数据库,词的数目 T 和文档数 目 D 通常都很大,如此高的维度将导致低效的计算,因为 结果频度表大小为 T*D 。 ? 高维还会导致非常稀疏的向量,增加监测和探查词之间联 系的难度。 ? 维度归约使用数据编码或变换,以便得到原数据的归约或 “压缩”表示。如果原数据可以由压缩数据重新构造而不 丢失任何信息,则该数据归约是无损的。如果我们只能重 新构造原数据的近似表示,则该数据归约是有损的。 3.1 潜在语义索引( LSI ) 潜在语义索引( LSI ) —— 最流行的文档维度归约算 法,基于 SVD (奇异值分解) LSI 基本思想 : 提取最具代表性的特征,同时最小化同 构错误。 SVD 分解词 - 文档矩阵: X=U∑V ∑ 是 X 的奇异值, U 、 V 为左右奇异向量 LSI 目标函数: 约束为 a XX a X aa X a T T a T a opt max arg min arg 2 ? ? ? 1 ? a a T ? 奇异值分解( Singular Value Decomposition ) 是线性代数中一种重要的矩阵分解,是矩阵分析 中正规矩阵对角化的推广。 ? 奇异值分解在某些方面与对称矩阵或 Hermite 矩阵 ( 共轭矩阵 ) 基于特征向量的对角化类似。然而这 两种矩阵分解尽管有其相关性,但还是有明显的 不同。对称阵特征向量分解的基础是谱分析,而 奇异值分解则是谱分析理论在任意矩阵上的推广 。 潜在语义标引( latent semantic indexing )方法 ? 潜在语义标引方法基本步骤: ? 1. 建立词频矩阵, frequency matrix ? 2. 计算 frequency matrix 的奇异值分解 ? 分解 frequency matrix 成 3 个矩阵 U , S , V 。 U 和 V 是正交矩阵( U T U=I ), S 是奇异值的对角矩阵 ( K × K ) ? 3. 对于每一个文档 d ,用排除了 SVD 中消除后的词的新 的向量替换原有的向量 ? 4. 保存所有向量集合,用高级多维索引技术为其创建索 引 ? 5. 用转换后的文档向量进行相似度计算 3.2 局部保留标引( LPI ) a XLX a S x a x a a T T a ij j T i T a opt min arg ) ( min arg 2 ? ? ? ? 1 ? a XLX a T T 局部保留标引( LPI ):提取最有判别力的特征 LPI 基本思想:保留局部信息(相邻文档可能涉及 相邻主题, LPI 的映射能够使设计相同语义的文档 尽可能靠近) LPI 目标函数: 约束为 3.3 概率潜在语义标引( PLSI ) 概率潜在语义标引( PLSI ):类似于 LSI ,通过混 合概率模型实现维度归约。 PLSI 基本思想:文档中有 k 个潜在的公共主题,使 用文档的混合权重,得到 k 个新的语义维。 4. 文本挖掘方法 ? 文本挖掘功能层次 关键词 相似检索 词语关联分析 自然语言处理 文本聚类 文本分类 文本挖掘功能层次 ( 1 )关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的 技术类似。 ( 2 )相似检索 找到相似内容的文本。 ( 3 )词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。 ( 4 )文本聚类和文本
您可能关注的文档
- 数学112余弦定理新人教A版必修.ppt
- 数学211平面课件新人教A版必修.ppt
- 数学53正弦函数的性质课件北师大版必修 2.ppt
- 数学二等分和四等分.ppt
- 数学分析课件数项级数.ppt
- 数学活动 探究中点四边形.ppt
- 数学物理方程及其定解问题.ppt
- 数学老师开学第一课分析.ppt
- 数据库 习题及参考答案.doc
- 数电课程设计 30秒倒计时器.doc
- (正式版)DB51∕T 1867-2014 《袋栽黑木耳生产技术规程》.docx
- (正式版)DB51∕T 2413-2023 《油橄榄密植丰产栽培技术规程》.docx
- (正式版)DB51∕T 2436-2017 《川菜东坡一品肉烹饪工艺技术规范》.docx
- (正式版)DB51∕T 2396-2017 《农村电子商务服务站(点)服务与管理规范》.docx
- (正式版)DB51∕T 2419-2017 《桢楠扦插育苗技术规程》.docx
- CN105145773B 一种无花果曲奇饼干及其制作方法 (江苏农林职业技术学院).docx
- CN105203825A 微测量电极的制作方法和热电势的测量方法及相关装置 (国家纳米科学中心).docx
- CN105137533B 一种啁啾光纤光栅及其制作方法 (南京航空航天大学).docx
- (正式版)DB51∕T 2453-2018 《巴山新居公共管理指南》.docx
- (正式版)DB51∕T 1892-2014 《川西北地区沙化土地治理技术规程》.docx
最近下载
- 高一必修一化学笔记总结.pdf VIP
- NCCN临床实践指南:子宫肿瘤(2026.v2)PPT课件.pptx VIP
- 2025年江西应用技术职业学院高职单招高职单招英语2016-2024年参考题库含答案解析.docx
- 《无机化学》电子教案.pdf VIP
- 孔子游春课件62260.ppt VIP
- 2025年江西应用技术职业学院单招笔试语文试题库含答案解析.docx VIP
- 2025年江西应用技术职业学院单招笔试综合素质试题库含答案解析.docx VIP
- 2025年江西应用技术职业学院单招《数学》题库试题附参考答案详解(突破训练).docx VIP
- The Mummy《木乃伊(1999)》完整中英文对照剧本.docx VIP
- 2026年江西应用技术职业学院单招职业技能考试模拟测试卷带答案解析.docx VIP
原创力文档

文档评论(0)