中文短文本分类的相干技术研究.pdfVIP

  • 2
  • 0
  • 约6.71万字
  • 约 50页
  • 2018-06-07 发布于贵州
  • 举报
中文短文本分类的相干技术研究

摘 要 随着搜索引擎、电子邮件、微型博客和观点评论等短文本信息在互联网范围内的大 量出现,有关短文本的相关研究逐步受到人们的关注。目前的文本分类技术多是针对长 文本进行,虽然性能较好但由于短文本字数少、数量庞大,并多数依存于网络,并不一 定适用。国内针对短文本的研究多集中在语义扩展、特征处理等方面,并没有特别深入 系统的研究。 本文对短文本的涵盖范围、特点及研究领域进行了详细的分析研究,并对相 关的研究现状和关键技术进行介绍。针对短文本特征稀疏等特点,考虑到传统的分词 会因为词汇量稀少而丢掉重要的语义信息,本文采用“字”作为短文本的特征进行 表示,并结合共现分析概念提出了基于字共现的特征提取方法。该方法在传统词 频统计的基础上加入文本中字与字之间的共现信息量,使得特征字能够更全面地表 达出短文本语义信息,通过实验证明该方法能够明显提高短文本的分类准确率。 有实验证明在诸多分类算法中,K近邻(KNN )和支持向量机(SVM )对短文本的 分类效果最好。由于短文本数量庞大,本文采用KNN分类算法并加以改进。因KNN算 法在分类前需要把所有训练文本存储起来与待测样本进行比对,计算量比较大,本文提 出了一种改进的基于近似域KNN分类方法。该方法事先对训练集中各类别进

文档评论(0)

1亿VIP精品文档

相关文档