复杂数据类型挖掘挖掘对象空间多媒体文本和web数据.ppt

复杂数据类型挖掘挖掘对象空间多媒体文本和web数据.ppt

* * /103 基于关键字的检索 在关键字检索中,文档被看作字符串,可用一组关键字识别 查询由关键字表达式构成 例子, 汽车 and 修理店 查询应考虑同义词问题, 如: 修理 和 维修 困难 同义词问题(Synonymy):文档与Key相关,但Key在文档中不出现 多义词问题(Polysemy):同一Key在不同的上下文有不同的含义,如Mine。 * * /103 基于相似性的检索(1) 相似检索是指基于一组共同的关键字找出相似的文档 检索结果基于相关度,即:与关键词的近似性,关键词的出现频率等。 非用词表(Stop list) 无关的高频词,如:a, the, of, for, etc. 文档不同时,非用词表也不同 * * /103 基于相似性的检索(2) 由于相似文档具有相似的相对词频,因此我们可以基于频率表中的相对词频,计算一组文档的相似性。 词频矩阵 相似度: 基于一组关键词的文档相似性 相关词的出现次数 余弦距离: 缺点:当词数T和文档数目D很大时,高的维数导致低的计算效率,且出现大的稀疏向量。 用奇异值分解 (SVD)技术减小词频矩阵大小 保留词频矩阵中最有意义的K行和K列,K值为几百。 词/文档 d1 d2 d3 d4 d5 d6 d7 t1 321 84 31 68 72 15 430 t2 354 91 71 56 82 6 392 t3 22 32 167 46 289 225 17 v,文档向量 |v|,范数 * * /103 文本的索引 潜在语义标引(latent semantic indexing)方法 利用矩阵理论中的“奇异值分解(singular value decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K) 潜在语义标引方法基本步骤: 1.建立词频矩阵,frequency matrix 2.计算frequency matrix的奇异值分解 分解frequency matrix成3个矩阵U,S,V。U和V是正交矩阵(UTU=I),S是奇异值的对角矩阵(K×K) 3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量 4.保存所有向量集合,用高级多维索引技术为其创建索引 5.用转换后的文档向量进行相似度计算 * * /103 倒排索引(inverted index) 一种索引结构,包含两个哈希索引表或两个B+树索引表 找出与给定词集相关的所有文档 找出与指定文档相关的所有词 易实现,但不能处理同义词和多义词问题,posting_list非常长,存储开销大 签名文件(signature file) 文档表(document_table) 词表(term_table) doc_ID posting_list term_ID posting_list Doc_1 t1_1, ... ,t1_n Term_1 doc_1, ... , doc_i Doc_2 t2_1, ... ,t2_n Term_2 doc_1, ... , doc_ j ┇ ┇ ┇ ┇ Doc_n tn_1, ... ,tn_n Term_n doc_1, ... , doc_n * * /103 倒排索引过程 * * /103 文本数据挖掘的类型 基于关键字的关联分析 文档分类分析 * * /103 基于关键字的关联分析 动机 收集经常一起出现的关键字或词汇,然后找出其关联或相互关系 关联分析过程 文档预处理:文本数据分解,词根处理,过滤非用词等 调用关联挖掘算法 将每一文档看作一个事务 将文档中的关键词组看作事务中的一组事务项 * * /103 文档分类 动机 自动对大量联机文档(web页面,e-mail等)进行分类组织,以便于对文档进行检索和分析。 分类过程 数据预处理:提出关键字和词汇 定义训练集和测试集 调用分类算法创建分类模式 测试分类模式 应用导出的分类模式对其他新的、未知的联机文档分类 文档分类与关系数据库中的数据分类之间的区别 文档数据库是非结构化的,没有“属性-值”对 * * /103 现在常用的分类方法 (1)纯粹贝叶斯方法(Na?ve Bayesian classifier) (2)支持向量机法(Support Vector Machines) (3)k-最近邻法(k-Nearest Neighbor) (4)神经网络法(Neural Network) (5)线性最小平方拟合法(Linear Least Squares Fit) (6)决策树算法。 * * /103 文本聚类 文本聚类的定义:一个将文本集分组的全自动处理过程。每个组里的文本在一定方面互相接近。 文本聚类的特点:不需训练集即可以从给定的

文档评论(0)

1亿VIP精品文档

相关文档