中文文本分类算法的研究.pdfVIP

  • 15
  • 0
  • 约7.46万字
  • 约 65页
  • 2015-11-05 发布于安徽
  • 举报
硕士论文 中文文本分类算法研究 摘 要 几十年信息技术和网络的发展,极大地方便了人们的交流和沟通,人类文明的发展 得到了很大推动,但是技术的发展也带来了信息海量式膨胀和有害信息等各种问题,如 何在海量数据环境下有效地管理并快速地将所需的数据进行分类,成为信息科学领域迫 切需要解决的问题。随着技术的发展,文本分类作为一门有着很大实用价值的独立学科 成长了起来,并在信息检索、搜索引擎、舆情分析等领域得到了广泛应用。 由于文本用向量空间模型表示存在维度高、稀疏性大的特点,对于文本的分类有一 定的难度。信息增益是目前最为常用的文本特征选择方法,但是对于非平衡集的分类效 果不佳。支持向量机是最适合文本分类的方法,但是支持向量机目前仍然存在复杂度较 高、花费时间较长、对参数敏感性较强等问题,在实际应用中仍在存在着一些难题。本 文针对上述问题做了如下工作: 总结分析了文本分类的研究背景和相关技术;研究了特征选择方法和支持向量机的 基础理论并总结了它们目前依然存在的问题;针对信息增益没有考虑特征项分布信息而 导致的在非平衡集上效果不佳的问题,结合Theil熵定义了类间离散

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档