文本挖掘若干关键算法的研究.pdf

中国科学技术大学博士论文 摘要 摘要 文本挖掘是一个非常活跃的研究领域,是数据挖掘领域的一个重要分支。文 本挖掘采用了很多传统的数据挖掘技术,但又有自己的特性。本文试图采用支持 向量机,流形学习与图论等理论,以网络文本为研究对象,全面开展文本分类、 聚类、压缩、可视化及排序等方面的算法研究。全文的主要工作包括以下几个方 面: 1)在定理证明的基础上,提出一种连分式Mercer 核, 它可以方便地应用于支 持向量分类机和其它支持向量机算法。在 5 个UCI 数据库实验中取得了比传统 核支持向量机更好的综合水平,而且它还可以方便地被用于合成复杂核,将此连 分式核的支持向量机应用到网络文本分类中,提高了网络文本分类正确率。 2 )提出了两个判别性的特征提取方法 – 判别性PCA 和判别性KPCA 。基于 PCA 和 MMC 理论,构造了一个多目标规划模型作为特征提取的目标。随后, 该模型被转化成一个单目标规划问题并通过特征分解的方法求解。此外,将一个 近似分块对角核矩阵 K 分成 c 个小矩阵并求出它们的特征值和特征向量,在此 基础上,通过张量代数处理得到一种映射矩阵 V ,核矩阵投影到V 上后能最大 程度上保持同类样本间的相似信息,同时还能让类间距离变得更大。 3 )提出了一种新的基于支持向量回归的偏好学习算法。它克服了偏好学习不 一致问题并改善了排序的泛化能力。同时,WMW 统计量被引入以评价算法的排 序表现。在一个人工数据集和几个基准数据集上的实验显示了方法的有效性。最 后,该方法还被应用到网络搜索系统的排序问题中,获得了较高的排序准确率。 4 )共享最近邻(SNN )相似度是一种新的相似性度量,它能克服样本间相似 性低和类密度差异大的问题。目前,基于SNN 相似度的聚类算法有JP 聚类和基 于SNN 密度聚类两种。它们的聚类结果完全依赖于单链的强度,因而算法非常 脆弱。引入计算几何学中的光滑拼接思想,设计了一种新的基于SNN 相似度的 光滑拼接聚类算法。它内含强度-光滑度互补机制,相比已有的两种算法,该算 法的泛化能力较高。在公开的文本数据集上做比较实验,结果显示,该算法在多 I 中国科学技术大学博士论文 摘要 个类别上取得了最高的聚类准确率和召回率。 5 )针对互联网开放性、层次性、演化性、巨量性等本质特性, 从复杂自适应系 统这一全新的角度, 以农业垂直搜索为应用背景,提出一种新的复杂自适应搜索模 型。该搜索模型的主要特点是通过建立信息采集、分类、清洗与服务智能体联盟, 组成多智能体实验环境;通过建立模型的学习机制与进化机制,改善搜索模型对 网络环境的动态适应能力。经过与现有主流搜索引擎的比较实验发现,它在查准 率方面具有明显的优势。同时,由于该搜索模型具备通用的结构体系,因而在建 立其它行业的垂直搜索模型时它可以被方便地移植使用。 关键词:Mercer 核; 连分式核; 支持向量机; 分类; PCA ; 最大间隔准则; 核PCA ;分块对角阵;文本可视化;偏好关系;支持向量回归; WMW ;排序; JP 聚类;密度聚类;光滑度;拼接;复杂自适应;web 搜索;用户意图 II 中国科学技术大学博士论文 摘要 ABSTRACT Text mining is a very active studying field, and is an important offset of data mining. It has made full use of the traditional tec

文档评论(0)

1亿VIP精品文档

相关文档