文本挖掘综述课件剖析.ppt

下载文档 降价啦

16
0
约6.26千字
约 62页
2020-07-19 发布于天津
举报
保障服务

文本挖掘综述课件剖析.ppt

倒排表倒排表例子倒排表存储结构特征文件（ signature file ） ? 定义：是一个存储数据库中每一个文档的特征记录的文件 ? 方法：每一个特征对应一个固定长度的位串，一个比特位对应一个词汇，若某一位对应的词出现在文档中，则该位置 1 ，否则置 0 。 ? S 1 ? S 2 ? 按位操作进行匹配，确定文档的相似形 ? 可以多词对应一个比特位，来减少位串的长度，但增加搜素开销，存在多对一映射的缺点。 1 1 1 … 1 1 1 0 … 1 2.4 查询处理技术 ? 创建倒排索引，查找包含关键词的文档，检索系统可以迅速回答关键词查询。 ? 相关反馈：在获得相关文档的实例后，系统可以从实例学习提高检索的性能。 ? 伪反馈（盲目反馈）：当没有这些相关实例时，系统可以假设在初始的检索结果中的前几个检索的文档是相关的，并提取更多相关的关键词来扩展查询。关键词检索存在的问题 ? 同义词问题：具有相同或相近含义的两个词具有很不相同的外在形式。例如：用户的查询使用词“ automobile ”，而相关文档用的不是“ automobile ”，而是“ vehicle ”。 ? 多义词问题：相同的关键词，如“ mining ”或“ java ”在不同的上下文中可能意味着不同的事物。 3. 文本的维度规约 ? 对于任何一个非平凡的文档数据库，词的数目 T 和文档数目 D 通常都很大，如此高的维度将导致低效的计算，因为结果频度表大小为 T*D 。 ? 高维还会导致非常稀疏的向量，增加监测和探查词之间联系的难度。 ? 维度归约使用数据编码或变换，以便得到原数据的归约或 “压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息，则该数据归约是无损的。如果我们只能重新构造原数据的近似表示，则该数据归约是有损的。 3.1 潜在语义索引（ LSI ）潜在语义索引（ LSI ） —— 最流行的文档维度归约算法，基于 SVD （奇异值分解） LSI 基本思想 : 提取最具代表性的特征，同时最小化同构错误。 SVD 分解词 - 文档矩阵： X=U∑V ∑ 是 X 的奇异值， U 、 V 为左右奇异向量 LSI 目标函数：约束为 a XX a X aa X a T T a T a opt max arg min arg 2 ? ? ? 1 ? a a T ? 奇异值分解（ Singular Value Decomposition ）是线性代数中一种重要的矩阵分解，是矩阵分析中正规矩阵对角化的推广。 ? 奇异值分解在某些方面与对称矩阵或 Hermite 矩阵 ( 共轭矩阵 ) 基于特征向量的对角化类似。然而这两种矩阵分解尽管有其相关性，但还是有明显的不同。对称阵特征向量分解的基础是谱分析，而奇异值分解则是谱分析理论在任意矩阵上的推广。潜在语义标引（ latent semantic indexing ）方法 ? 潜在语义标引方法基本步骤： ? 1. 建立词频矩阵， frequency matrix ? 2. 计算 frequency matrix 的奇异值分解 ? 分解 frequency matrix 成 3 个矩阵 U ， S ， V 。 U 和 V 是正交矩阵（ U T U=I ）， S 是奇异值的对角矩阵（ K × K ） ? 3. 对于每一个文档 d ，用排除了 SVD 中消除后的词的新的向量替换原有的向量 ? 4. 保存所有向量集合，用高级多维索引技术为其创建索引 ? 5. 用转换后的文档向量进行相似度计算 3.2 局部保留标引（ LPI ） a XLX a S x a x a a T T a ij j T i T a opt min arg ) ( min arg 2 ? ? ? ? 1 ? a XLX a T T 局部保留标引（ LPI ）：提取最有判别力的特征 LPI 基本思想：保留局部信息（相邻文档可能涉及相邻主题， LPI 的映射能够使设计相同语义的文档尽可能靠近） LPI 目标函数：约束为 3.3 概率潜在语义标引（ PLSI ）概率潜在语义标引（ PLSI ）：类似于 LSI ，通过混合概率模型实现维度归约。 PLSI 基本思想：文档中有 k 个潜在的公共主题，使用文档的混合权重，得到 k 个新的语义维。 4. 文本挖掘方法 ? 文本挖掘功能层次关键词相似检索词语关联分析自然语言处理文本聚类文本分类文本挖掘功能层次（ 1 ）关键词检索关键词建立倒排文件索引，与传统的信息检索使用的技术类似。（ 2 ）相似检索找到相似内容的文本。（ 3 ）词语关联分析聚焦在词语（包括关键词）之间的关联信息分析上。（ 4 ）文本聚类和文本

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本挖掘综述课件剖析.ppt