一种基于段落同现频率的加权方法.pdfVIP

  • 10
  • 0
  • 约1.38万字
  • 约 4页
  • 2017-09-01 发布于湖北
  • 举报
一种基于段落同现频率的加权方法.pdf

通信技术 c6m t百t 6 Tec f1o~.L 誉 —≤ 一 种基于段落同现频率的加权方法术 楼华锋 ,刘功 申 (上海交通大学信息安全工程学院,上海 200240) 【摘 要】聚类算法 的研究已经非常成熟了,但是这些聚类算法一般都是基于数值型信息,所 以怎样把现有的一些经典 聚类算法有效地 应用到文本聚类,特别是中文文本聚类是一个非常重要的问题。文中提出了一种基于语义分析,利用段 落同现频率来加权特征向量权值的方法。实验证明:基于语义分析特征向量加权的方法能够提高 lO%左右的文本聚类 效果。同时,文中还研究了段落同现频率阈值选取问题,发现段落同现频率阈值选取大小对聚类效果有很大影响。 【关键词】特征向量模型;段落同现频率;特征向量加权 【中图分类号】TP301.6 【文献标识码】A 【文章编号】l009—

文档评论(0)

1亿VIP精品文档

相关文档