基于LDA改进Kmeans算法在文本聚类中应用.docVIP

下载本文档

25
0
约5.67千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于LDA改进Kmeans算法在文本聚类中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LDA改进Kmeans算法在文本聚类中应用

基于LDA改进Kmeans算法在文本聚类中应用　　摘要：针对传统K-means算法初始聚类中心选择的随机性可能导致迭代次数增加、陷入局部最优和聚类结果不稳定现象的缺陷，提出一种基于隐含狄利克雷分布（LDA）主题概率模型的初始聚类中心选择算法。该算法选择蕴含在文本集中影响程度最大的前m个主题，并在这m个主题所在的维度上对文本集进行初步聚类，从而找到聚类中心，然后以这些聚类中心为初始聚类中心对文本集进行所有维度上的聚类，理论上保证了选择的初始聚类中心是基于概率可确定的。实验结果表明改进后算法聚类迭代次数明显减少，聚类结果更准确。　　关键词：主题模型； K-means；聚类中心；文本聚类；隐含狄利克雷分布　　中图分类号： TP301.6 文献标志码： A 　　0引言　　随着互联网的不断发展，网络上文本信息呈爆炸式增加，如何精准有效地发现、组织和利用海量文本背后的有用信息成为一个热门话题[1]，文本聚类技术作为自然语言处理的预处理步骤[2]，对文本进一步分析和处理产生了重要的影响。目前比较经典的文本聚类算法大致分为划分方法、层次方法、基于网格的方法、基于密度的方法以及基于模型的方法[3]。对于像大规模文本处理这样开销比较大的应用，划分方法相对来说具有较低的处理复杂度因而应用相对比较广泛。而基于划分的方法[4-7]有K-means、K-prototypes、K-medoids等，其中K-means[8]是比较常用的算法。　　K-means的时间复杂度是线性的O（n*k*t），其中k为指定的类别数，n为待聚类的样本数，t为迭代次数的上限，算法简单且收敛速度快，所以更适应于处理大规模文本。然而也有着明显的不足[9]：该算法采用梯度法求解目标函数极值，如果初始聚类中心选择不好，结果很容易陷入局部最优，导致聚类结果不稳定。　　在文本聚类方面，Dhillon等[10]曾使用K-means算法，并利用余弦相似度来计算文本间的距离，而文本是非结构化或半结构化的，文本向量的维度高，具有稀疏性，不同簇之间相似度的差异性比较大，因此可能导致聚成一簇的文本之间的非相似性[11]，传统K-means往往更容易陷入局部最值，导致较差的聚类结果，因此如何获得合适的初始聚类中心，在保证算法结果稳定性的同时保持其准确性，对提升算法的聚类性能显得尤为重要[4-5]。很多研究人员提出了一系列改进的K-means算法。文献[12]提出了一种改进的K-means算法，该算法在基于密度检测的基础上，在原来的算法中加入噪声数据特征检测的步骤，除去待聚类数据集中的噪声，提高了数据集的凝聚力，但是对于大规模文本数据集处理，该算法的复杂度是难以接受的。文献[13]算法不同于传统的算法对于每个类别只选择一个聚类中心，而是选择多个中心聚类点，此外该算法通过计算加权距离来分发数据点，并产生新的特征点集合，同时给出了相应的参数，然而这些参数没有可靠的理论依据。文献[14]提出了基于密度的初始聚类中心选择算法，即选择k个处于高密度区域的数据对象作为初始聚类中心，但是该方法中的密度参数难以确定，这一不足对其性能有很大的影响。Lai等[15]提出了一种快速K-means聚类算法，该算法利用中心点去除一些不太适合作为候选中心点的样本点，该算法比基于kd树的算法有很低的复杂度，但是依然受到孤立点的影响。Chang等[16]在Jim等[15]的基础上对算法做了进一步的改进。他们将文本分成多个独立的主题，并针对每个主题实施快速K-means算法。尽管这种方法能够降低算法复杂度，但是没有考虑到数据的分布模型，所以容易陷入局部最优，然而主题聚类方法比传统的方法要更有效[17]。　　本文基于主题模型提出了一种改进的K-means算法，该算法采用了一种新的初始聚类中心点的选择方法，考虑到了文本主题服从Dirichlet分布，主题词服从多项式分布的分布特点，并使用了隐含狄利克雷分布（LatentDirichletAllocation，LDA）模型对文本进行分析和处理。理论推导和实验结果表明本文算法选择的初始聚类中心是基于概率可确定的，迭代次数明显减少，聚类结果稳定且更准确。　　4结语　　本文算法摆脱了初始聚类中心选择的任意性，减少了算法的迭代次数，选择出的初始聚类中心是基于概率可确定的，符合文本分布特点且更具代表性。该方法对大规模文本处理有着重大的意义，更重要的是提高了最终的聚类精度，使聚类结果更接近真实文本类别。LDA模型对大规模文本集中的隐含主题抽取的准确度，直接影响后期的聚类精度，所以找到精度更高的文本主题概率模型是进一步研究的重点。　　参考文献：　　[1]LIKASA，VLASSISNJ，VERBEEKJ.TheglobalK-meansclusteri