大规模短文本的不完全聚类彭泽映俞晓明许洪波中国科学院计算.docVIP

大规模短文本的不完全聚类彭泽映俞晓明许洪波中国科学院计算.doc

  1. 1、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。。
  2. 2、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  3. 3、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模短文本的不完全聚类彭泽映俞晓明许洪波中国科学院计算技术研究所北京摘要聚类分析是机器学习的一个重要手段人们可以通过聚类发现信息中潜在的热点或规律至今已经有大量聚类算法被研究和提出随着互联网的日益普及查询日志等短文本信息逐渐在人们生活中起着越来越重要的作用这类短文本信息数量巨大通常可达到千万乃至亿级现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力本文通过对实际应用中的短文本信息进行实验分析发现了这类数据所具有的长尾分布并由此提出了不完全聚类思想可以有效地提高这类短文本信息的

PAGE 8 大规模短文本的不完全聚类 彭泽映,俞晓明,许洪波 (中国科学院计算技术研究所,北京,100190) Email: pengzeying@ 摘要:聚类分析是机器学习的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。本文通过对实际应用中的短文本信息进行实验分析,发现了这类数据所具有的“长尾分布”,并由此提出了不完全

文档评论(0)

yusuyuan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档