大规模短文本的不完全聚类彭泽映，俞晓明，许洪波（中国科学院计算.doc

下载文档

7
0
约8.87千字
约 8页
2017-03-05 发布于天津
举报
版权申诉
保障服务

大规模短文本的不完全聚类彭泽映，俞晓明，许洪波（中国科学院计算.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大规模短文本的不完全聚类彭泽映，俞晓明，许洪波（中国科学院计算

大规模短文本的不完全聚类彭泽映，俞晓明，许洪波（中国科学院计算技术研究所，北京，100190） Email: pengzeying@ 摘要：聚类分析是机器学习的一个重要手段，人们可以通过聚类发现信息中潜在的热点或规律。至今，已经有大量聚类算法被研究和提出。随着互联网的日益普及，查询日志、twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大，通常可达到千万乃至亿级，现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。本文通过对实际应用中的短文本信息进行实验分析，发现了这类数据所具有的“长尾分布”，并由此提出了不完全聚类思想，可以有效地提高这类短文本信息的聚类性能。关键词：短文本；聚类分析；不完全聚类 Incomplete Clustering For Large Short Texts Ze-Ying Peng, Xiao-Ming Yu, Hong-Bo Xu (Institute of Computing Technology, Chinese Academy of Science, Beijing 100190, China) Email: pengzeying@ Abstract: Clustering is the unsupervised classification of patterns (observations, data items, or feature vectors) into groups (clusters). So far, many clustering algorithms have been proposed. With the rapid development of internet, short texts such as query logs and twitter messages play a more and more important role in our daily life. Most existing clustering methods are hard to be applied in dealing with this kind of information due to the huge size. This paper reveals the long tail distribution of this kind of information, and proposes an incomplete clustering algorithm. The experimental results show that the proposed method can cluster the short texts effectively and efficiently. Keywords: short texts; clustering; incomplete clustering 引言聚类分析[1]（非监督学习）是数据挖掘中的一个重要领域。它将大量具有相同属性的事物按照相似度分为各个组，进而辅助人们从这些信息中抽取摘要或者发现新的规律。至今，聚类分析已成功应用于文本摘要、生物基因识别、电子商务客户行为分析等众多方面、取得了很好效果。随着这两年twitter带来的新一波内容风潮，越来越多关注被投放到了一种早已广泛存在的信息形式：短文本。称之为短文本是因为这些信息都是一些很短的文本，一般字数都不超过100。实际上，在twitter风靡之前，短文本就早已深入人们的网络生活中，甚至可以说是与网民最贴近的信息形式。进入Internet的入口——搜索引擎中与用户最相关的部分——用户查询就是一种典型的短文本；已经成为人们上网不可或缺的“网络固话”——即时通讯软件中的聊天对话基本都属于短文本。除此之外，聊天室对话、新闻标题、论坛标题和SNS状态信息等也都是短文本的栖息地。另外，人们日常生活中的得力交流助手——短信，也是短文本的巨型源泉。短文本与人们生活息息相关，所以对它们的有效处理具有很大的应用前景，聚类就是一种很有效的处理方式。至今，已有许多聚类算法被相继提出，但常用的文本聚类算法如K-means等在短文本聚类中效果不佳[2]。主要是因为短文本一般具有以下特征：形式不规范，趋向口语化。很多短文本都带有很多口语化内容和网络流行语，还有一些使用变形字，如“我”变“额”。短文本特征信息很少，只有少量的字可以被分析使用。数量巨大，通常至少是百万级的。实时性要求较高，因为短文本是不断的产生的，而且信息过时很快，如twitter上的信息，基本上每个小时都有热点话题产生。近几年来也有一些专门针对短