基于标记样本和相似度调整k均值算法在文本聚类中应用.docVIP

下载本文档

4
0
约3.13千字
约 7页
2018-08-30 发布于福建
举报
版权申诉

基于标记样本和相似度调整k均值算法在文本聚类中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于标记样本和相似度调整k均值算法在文本聚类中应用

基于标记样本和相似度调整k均值算法在文本聚类中应用　　[摘要]在机器学习领域的众多实际应用中，获得标记样本通常需要付出较大的代价。在一些情况下，获得所有的类标记是非常困难的。近年来，半监督学习已经成为机器学习领域的一个研究热点。本文对聚类的相关技术和半监督学习进行了研究，介绍了文本数据的预处理、距离公式、聚类算法评估准则以及几种k-means算法的扩展算法。　　[关键词]机器学习；半监督学习；半监督聚类；文本聚类　　中图分类号：TP31 文献标识码：A 文章编号：1009-914X（2016）29-0361-01 　　0 研究背景　　数据库技术为存储海量数据信息提供了可能，但随着通信网、互联网的迅速发展和日益普及，信息量呈指数级别增长，由于信息产生的速度远远超过人们对信息的利用能力，使得人们在海量的信息面前无所适从，给使用者带来巨大的时间、资金和精力的浪费。因此，通过建立合适的学习系统，将信息分门别类才便于挖掘信息的内部规律，这些信息才可能为人类所利用。　　在现实问题中通常存在大量无标记样本，但有标记样本则比较少，无标记样本的获也取相对容易，而获取有标记的样本则要困难得多。尤其是在一些在线应用中这一问题更加明显，从大量的在线文档中获取无类标记的新文章十分简单，如果建立一个分类器来把这些新文档分类到各个类中去，或者想要获得这些文档的类标记可能需要耗费大量的人力、物力和财力。显然，如果只使用少量的有标记样本，那么利用它们所训练出来的学习系统往往很难具有泛化能力，在某些特定的条件下同时使用标记样本和无标记样本的学习结果要优于仅仅使用少量已标记样本的学习结果。　　1 研究现状　　聚类技术已经在模式识别、图像处理、信息检索、商业数据分析等许多领域的应用中取得长足进展。在模式识别中，聚类分析被应用于语音识别、计算机视觉、字符识别、雷达信号识别、文本识别、气象数据分了、食品检验、水质分析、自动化过程控制和工具状态监测等方面。在图像处理中，聚类分析方法被应用于灰度图像的分割、彩色图像的分割、纹理图像的分割、图像边缘的检测、图像增强、恢复与压缩等方法；在商业领域，聚类分析常被应用用于客户群体分类、预测客户的消费模式和习惯等；文本聚类在信息检索领域有着广泛的应用，通过聚类发现数据空间分布特征，从而建立主题索引，帮助用户快速的找到所需信息。同时，聚类分析也用于个性化信息推荐系统。　　2.基于标记样本和相似度矩阵调整的k-means算法　　基于标记样本和相似度调整的k-means算法（LSKM）是根据半监督学习的聚类假设条件，结合了基于约束和距离测度两种思想的半监督聚类算法。为了读者更好地理解这个算法，本章首先阐述了文本处理技术、无监督学习的的理论基础半监督聚类算法和半监督聚类算法研究的一些相关问题，包括：样本间的距离学习、聚类算法的评价准则、k-means聚类的扩展算法等。　　2.1 文本处理　　文本是非结构化的数据，无法用数据挖掘的方法对文本直接进行处理，需要先对文本进行预处理，使文本最终表示成为一种结构化的计算机能够处理的形式。文本预处理是聚类分析中一个非常重要的环节，预处理的质量直接影响着聚类分析的性能。预处理包括：正文提取、去除停用词（stopwordremoval），提出词干（stemming），处理数字、连接词、标点以及字母大小写等预处理工作。如果处理中文还需要对文本分词。对于网页，还需要移除HTML标签和鉴定网页主要内容等。虽然经过预处理后的本文长度会有所降低，但此时的文本仍然是非结构化的数据。为了方便计算机处理，需要将这些文本转化成某种结构化的模式，这个转化的过程就是文本的表示和特征选择。这一节将对这两种技术进行简要的阐述。　　2.2 聚类　　将物理或抽象对象的集合分成相似的对象簇的过程称为聚类（Clustering），簇（cluster）是样本对象的集合，这些对象与同一个簇中的对象彼此相似，而与其它簇中的对象相异。一个样本对象簇可以整体看作一个组，因此可以看作一种数据压缩形式。尽管分类是一种识别对象组或类的有效手段，但是它常常需要高昂的代价收集和标记大量训练元组集或模式，以便分类算法使用它们对每个组建模。通常，人们更希望反方向处理：首先，基于样本的相似性把样本划分成组，然后给这些数量相对较少的组指定标记。这种基于聚类的过程的另一个优点是可以适应变化，并且能够挑选出区分不同组的有用特征。　　2.3 聚类算法评估　　聚类结果体现了数据的分布特征，从未知数据中发现有意义的模式。评估过程是对所发现的的模式的有效性的验证，用来指导用户调整模型和参数值。从直观上看，就是把相似数据划分到同一个簇中，而不相似的数据尽可能划分到不同簇中。　　（1）纯度度　　纯度（purity