基于PCA和kNN混合算法文本分类方法.docVIP

下载本文档

44
0
约5.7千字
约 12页
2018-08-28 发布于福建
举报
版权申诉

基于PCA和kNN混合算法文本分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于PCA和kNN混合算法文本分类方法

基于PCA和kNN混合算法文本分类方法　　摘要：随着文本数据的激增，文本分类的高复杂度是一个重要的问题。k近邻（kNN）算法是一个简单、有效，但是计算复杂度很高的分类算法。一般，在使用kNN算法时，使用主成分分析（PCA）进行预处理来减少维数，但是该算法要求投影空间中的所有向量来执行kNN算法。我们提出一个新的混合算法PCAkNN，使用一个小的邻居集来执行kNN算法，而不是投影空间中的完整的数据向量，从而减少了计算的复杂性。新的文本被投影到较低维的空间，kNN仅使用每个轴的邻居执行，基于更接近原始空间和投影空间且沿着投影成分的主向量。为了验证该方法的有效性，针对Reuters标准数据集进行实验，实验结果显示，新提出的模型显著优于kNN和标准PCA-kNN混合算法，同时保持了相似的分类精确度。　　关键词：文本分类；降维；PCA；kNN；混合分类器；加权　　中图分类号：TP312 文献标识码：A 文章编号：1009-3044（2015）10-0169-03 　　随着网络信息技术的快速发展和高速通信基础设施的建设，各种电子文档的数量不断增加，使得人们查找信息越来越难，为了收集有用的信息，需要对文本进行正确、有效的分类。因此，分类技术的发展越来越受到人们的重视。　　文本分类是为每个文档找到正确的类，给定一组类和文本文档集合的过程，也称为监督学习，它融合了数据挖掘、信息检索、统计学、神经网络等学科的知识，主要应用于描述性问答系统、搜索引擎、推荐系统等。目前，常用的文本分类算法[1]有：支持向量机（SVM）、k近邻（kNN）、贝叶斯算法（Bayes）、遗传算法等。其中kNN算法是一种简单、有效、非参数的方法，因而得到了广泛的应用。但它有一个明显的缺点：文本的特征向量空间具有很高的维数。因此，它的计算成本很高。　　现阶段，已有将主成分分析（PCA）用作kNN算法的预处理阶段，以减少维数。然而，kNN算法的计算成本尽管减少了，但仍然高，这是因为，此方法使用了投影空间中每一个向量[2]。　　本文提出了一个新的混合文本分类方法，利用PCA来减少维数，同时仅对主成分中邻近的向量应用kNN算法，从而降低了kNN分类器的输入。我们证明了该混合模型能够以高精度水平分类数据，同时使用更小的主成分数从而显著减少了计算时间。　　1 理论背景　　1.1 文本表示　　文本文档存储的是非结构化的信息，所以文本分类需要将文本表示成计算机能够处理的形式。常见的文本表示方法有布尔逻辑型、概率型和向量空间模型（SVM）[3]等。本文采用的是向量空间模型（SVM）来描述文本集。　　在向量空间模型，文件被表示为向量，其中，文档中的每个条目对应于术语的权重。文本分类的一个普及的无监督的加权方式是TF* IDF（检索词频率*倒排文档频率）[4，5]。还有其他的有效监督加权方式，例如TF*RF（检索词频率*相关性频率），TF-ICF（检索词频率*逆语料库频率）[6]等。有效的文本分类取决于加权方式和分类算法两者的正确选择。　　1.2 主成分分析　　主成分分析（PCA）是1933年由Hotelling首先提出的，它是通过对原始变量的相关矩阵或协方差矩阵内部结构的研究，将多个变量转换成少数几个综合变量，即主成分，从而达到降维[7]的目的的一种常用的降维方法[8，9]。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间，从而获得高维数据的一个有意义的低维表示的过程。主成分的数量小于或等于原变量的数量，被用于降低高维数据的维数。　　主成分分析的主要思想[10]：是设法将原来类别特征重新组合成一组新的互相无关的几个综合类别特征来代替原来类别特征，同时根据实际需要从中可取出几个较少的综合类别特征尽可能多的反应原来类别特征的信息。这种将多个类别特征化为少数互相无关的综合类别特征的统计方法叫做主成分分析。它也是常见的处理降维的一种方法。　　主成分分析[11]的降维步骤如下：　　1.3 kNN文本分类算法　　kNN是一种分类算法[12，13]，它的基本思想[14]是：根据向量空间模型，把文本内容转化为特征空间中的加权特征向量。计算待测试文本与训练集中每个样本的相似度，找出测试文件的k个最近的邻居，并按k个邻居的类别分开统计，把测试文本划分到最相近的一类中去。　　这种方法表现良好，即使在处理多分类文档的分类任务时也是一样，但是在使用大量测试样例或高维数据分类对象时，就会需要很长的时间。为了分类新到达的数据，我们需要遍历所有的测试样例来找到它的近邻。存储所有的测试样例就会引起更多的存储需求。　　我们的目标是利用k近邻算法的优势，并降低它的计算复杂度。曾经提出过这样一种模式，在执行kNN算法前执行一些预处理，像PC