文本挖掘综述课件剖析.ppt

倒排表 倒排表例子 倒排表存储结构 特征文件( signature file ) ? 定义:是一个存储数据库中每一个文档的特征记录的文件 ? 方法:每一个特征对应一个固定长度的位串,一个比特位对 应一个词汇,若某一位对应的词出现在文档中,则该位置 1 , 否则置 0 。 ? S 1 ? S 2 ? 按位操作进行匹配,确定文档的相似形 ? 可以多词对应一个比特位,来减少位串的长度,但增加搜素开销, 存在多对一映射的缺点。 1 1 1 … 1 1 1 0 … 1 2.4 查询处理技术 ? 创建倒排索引,查找包含关键词的文档,检索系 统可以迅速回答关键词查询。 ? 相关反馈:在获得相关文档的实例后,系统可以 从实例学习提高检索的性能。 ? 伪反馈(盲目反馈):当没有这些相关实例时, 系统可以假设在初始的检索结果中的前几个检索 的文档是相关的,并提取更多相关的关键词来扩 展查询。 关键词检索存在的问题 ? 同义词问题: 具有相同或相近含义的两个词具有很不相同 的外在形式。例如:用户的查询使用词“ automobile ”, 而相关文档用的不是“ automobile ”,而是“ vehicle ”。 ? 多义词问题: 相同的关键词,如“ mining ”或“ java ”在 不同的上下文中可能意味着不同的事物。 3. 文本的维度规约 ? 对于任何一个非平凡的文档数据库,词的数目 T 和文档数 目 D 通常都很大,如此高的维度将导致低效的计算,因为 结果频度表大小为 T*D 。 ? 高维还会导致非常稀疏的向量,增加监测和探查词之间联 系的难度。 ? 维度归约使用数据编码或变换,以便得到原数据的归约或 “压缩”表示。如果原数据可以由压缩数据重新构造而不 丢失任何信息,则该数据归约是无损的。如果我们只能重 新构造原数据的近似表示,则该数据归约是有损的。 3.1 潜在语义索引( LSI ) 潜在语义索引( LSI ) —— 最流行的文档维度归约算 法,基于 SVD (奇异值分解) LSI 基本思想 : 提取最具代表性的特征,同时最小化同 构错误。 SVD 分解词 - 文档矩阵: X=U∑V ∑ 是 X 的奇异值, U 、 V 为左右奇异向量 LSI 目标函数: 约束为 a XX a X aa X a T T a T a opt max arg min arg 2 ? ? ? 1 ? a a T ? 奇异值分解( Singular Value Decomposition ) 是线性代数中一种重要的矩阵分解,是矩阵分析 中正规矩阵对角化的推广。 ? 奇异值分解在某些方面与对称矩阵或 Hermite 矩阵 ( 共轭矩阵 ) 基于特征向量的对角化类似。然而这 两种矩阵分解尽管有其相关性,但还是有明显的 不同。对称阵特征向量分解的基础是谱分析,而 奇异值分解则是谱分析理论在任意矩阵上的推广 。 潜在语义标引( latent semantic indexing )方法 ? 潜在语义标引方法基本步骤: ? 1. 建立词频矩阵, frequency matrix ? 2. 计算 frequency matrix 的奇异值分解 ? 分解 frequency matrix 成 3 个矩阵 U , S , V 。 U 和 V 是正交矩阵( U T U=I ), S 是奇异值的对角矩阵 ( K × K ) ? 3. 对于每一个文档 d ,用排除了 SVD 中消除后的词的新 的向量替换原有的向量 ? 4. 保存所有向量集合,用高级多维索引技术为其创建索 引 ? 5. 用转换后的文档向量进行相似度计算 3.2 局部保留标引( LPI ) a XLX a S x a x a a T T a ij j T i T a opt min arg ) ( min arg 2 ? ? ? ? 1 ? a XLX a T T 局部保留标引( LPI ):提取最有判别力的特征 LPI 基本思想:保留局部信息(相邻文档可能涉及 相邻主题, LPI 的映射能够使设计相同语义的文档 尽可能靠近) LPI 目标函数: 约束为 3.3 概率潜在语义标引( PLSI ) 概率潜在语义标引( PLSI ):类似于 LSI ,通过混 合概率模型实现维度归约。 PLSI 基本思想:文档中有 k 个潜在的公共主题,使 用文档的混合权重,得到 k 个新的语义维。 4. 文本挖掘方法 ? 文本挖掘功能层次 关键词 相似检索 词语关联分析 自然语言处理 文本聚类 文本分类 文本挖掘功能层次 ( 1 )关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的 技术类似。 ( 2 )相似检索 找到相似内容的文本。 ( 3 )词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。 ( 4 )文本聚类和文本

文档评论(0)

1亿VIP精品文档

相关文档