文本挖掘若干关键算法的研究.pdf

下载文档 降价啦

5
0
约12.69万字
约 97页
2016-11-14 发布于江苏
举报
保障服务

文本挖掘若干关键算法的研究.pdf

中国科学技术大学博士论文摘要摘要文本挖掘是一个非常活跃的研究领域，是数据挖掘领域的一个重要分支。文本挖掘采用了很多传统的数据挖掘技术，但又有自己的特性。本文试图采用支持向量机，流形学习与图论等理论，以网络文本为研究对象，全面开展文本分类、聚类、压缩、可视化及排序等方面的算法研究。全文的主要工作包括以下几个方面： 1）在定理证明的基础上，提出一种连分式Mercer 核, 它可以方便地应用于支持向量分类机和其它支持向量机算法。在 5 个UCI 数据库实验中取得了比传统核支持向量机更好的综合水平，而且它还可以方便地被用于合成复杂核，将此连分式核的支持向量机应用到网络文本分类中，提高了网络文本分类正确率。 2 ）提出了两个判别性的特征提取方法 – 判别性PCA 和判别性KPCA 。基于 PCA 和 MMC 理论，构造了一个多目标规划模型作为特征提取的目标。随后，该模型被转化成一个单目标规划问题并通过特征分解的方法求解。此外，将一个近似分块对角核矩阵 K 分成 c 个小矩阵并求出它们的特征值和特征向量，在此基础上，通过张量代数处理得到一种映射矩阵 V ，核矩阵投影到V 上后能最大程度上保持同类样本间的相似信息，同时还能让类间距离变得更大。 3 ）提出了一种新的基于支持向量回归的偏好学习算法。它克服了偏好学习不一致问题并改善了排序的泛化能力。同时，WMW 统计量被引入以评价算法的排序表现。在一个人工数据集和几个基准数据集上的实验显示了方法的有效性。最后，该方法还被应用到网络搜索系统的排序问题中，获得了较高的排序准确率。 4 ）共享最近邻（SNN ）相似度是一种新的相似性度量，它能克服样本间相似性低和类密度差异大的问题。目前，基于SNN 相似度的聚类算法有JP 聚类和基于SNN 密度聚类两种。它们的聚类结果完全依赖于单链的强度，因而算法非常脆弱。引入计算几何学中的光滑拼接思想，设计了一种新的基于SNN 相似度的光滑拼接聚类算法。它内含强度-光滑度互补机制，相比已有的两种算法，该算法的泛化能力较高。在公开的文本数据集上做比较实验，结果显示，该算法在多 I 中国科学技术大学博士论文摘要个类别上取得了最高的聚类准确率和召回率。 5 ）针对互联网开放性、层次性、演化性、巨量性等本质特性, 从复杂自适应系统这一全新的角度, 以农业垂直搜索为应用背景,提出一种新的复杂自适应搜索模型。该搜索模型的主要特点是通过建立信息采集、分类、清洗与服务智能体联盟，组成多智能体实验环境；通过建立模型的学习机制与进化机制，改善搜索模型对网络环境的动态适应能力。经过与现有主流搜索引擎的比较实验发现，它在查准率方面具有明显的优势。同时，由于该搜索模型具备通用的结构体系，因而在建立其它行业的垂直搜索模型时它可以被方便地移植使用。关键词：Mercer 核；连分式核；支持向量机；分类； PCA ；最大间隔准则；核PCA ；分块对角阵；文本可视化；偏好关系；支持向量回归； WMW ；排序； JP 聚类；密度聚类；光滑度；拼接；复杂自适应；web 搜索；用户意图 II 中国科学技术大学博士论文摘要 ABSTRACT Text mining is a very active studying field, and is an important offset of data mining. It has made full use of the traditional tec

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

文本挖掘若干关键算法的研究.pdf