计算机应用技术论文文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择.docVIP

  • 13
  • 0
  • 约2.31千字
  • 约 4页
  • 2017-02-06 发布于重庆
  • 举报

计算机应用技术论文文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择.doc

计算机应用技术论文文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择

计算机应用技术论文:基于朴素贝叶斯方法的中文文本分类研究 【中文摘要】计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用Java在MyEclipse平台上实现了基于朴素贝叶斯方法的中文文本分类系统。本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。本文通过实验表明信息增益和χ2统计量是朴素贝叶斯文本分类较好的特征选择方法。 【英文摘要】Since the technology of computer and network appeared, it had been devel

文档评论(0)

1亿VIP精品文档

相关文档