CMDC:一种差异互补的迭代式多维度文本聚类算法.docx

CMDC:一种差异互补的迭代式多维度文本聚类算法.docx

1 引言 文本聚类,旨在按照文本的相似性自动挖掘文本的结构,是文本挖掘的重要任务,被众多应用所关注[1]。传统的文本聚类多从单一的文本内容维度出发,根据文本内容中的语义特征来挖掘文本数据集的结构关系。随着互联网和数据分析技术的发展,文本数据的表示逐渐从传统单一的内容维度向立体的多维度发展[2]。例如,互联网环境中的新闻文本数据,除表示为以词向量为代表的传统内容维度以外,还可表示为新闻文本的主题维度(如新闻用词所涵盖的主题),以及新闻文本在互联网传播过程中获得的传播行为维度(如新闻的转发用户、阅读用户、点赞用户等);研究类论文的文本数据除表示为传统的内容维度以外,还可被描述为论文的研究行为维度,

文档评论(0)

1亿VIP精品文档

相关文档