基于自动编码器的短文本特征提取和聚类研究.pdfVIP

  • 26
  • 0
  • 约 7页
  • 2016-03-10 发布于安徽
  • 举报

基于自动编码器的短文本特征提取和聚类研究.pdf

北京大学学报(自然科学版) 第 51卷 第 2期 2015年3月 AetaScientiarumNaturaliumUniversitatisPekinensis,Vo1.51,No.2(Mar.2015) doi:10.13209~.0479-8023.2015.040 基于 自动编码器的短文本特征提取及聚类研究 刘勘 袁蕴英 中南财经政法大学信息与安全工程学院,武汉 430074;十E-mail:liukan@znufe.edu.cn 摘要 针对短文本的特点,提出一种基于深层噪音 自动编码器的特征提取及聚类算法。该算法利用深度学习 网络,将高维、稀疏的短文本空间向量变换到新的低维、本质特征空问。首先在 自动编码器的基础上,引入 Ll范式惩罚项来避免模型过分拟合,然后添加噪音项以提高算法的鲁棒性 。实验结果表明,将提取 的文本 特征应用于短文本聚类,显著提高了聚类的效果,有效地解决了短文本空间向量的高维 、稀疏问题。 关键词 深度学习;自动编码器;特征提取;聚类 中图分类号 TP391 ShortTextsFeatureExtractionandClusteringBasedonAuto

文档评论(0)

1亿VIP精品文档

相关文档