- 13
- 0
- 约2.31千字
- 约 4页
- 2017-02-06 发布于重庆
- 举报
计算机应用技术论文文本分类朴素贝叶斯分类多变量伯努利模型多项式模型特征选择
计算机应用技术论文:基于朴素贝叶斯方法的中文文本分类研究
【中文摘要】计算机与网络技术自出现以来,发展迅速,并日趋完善,互联网已成为获取信息的主要来源。由于网络中大部分信息是文本数据,作为有效组织与管理文本数据重要基础的文本自动分类已成为具有重要应用价值的研究领域。基于贝叶斯理论的朴素贝叶斯分类方法具有简单、有效、速度快的优点,成为文本分类算法的重点研究内容之一。本文首先对文本分类涉及到的中文分词、文本向量表示及特征权重计算等关键技术做了比较详细的分析研究;然后针对朴素贝叶斯文本分类的模型以及常用特征选择方法对朴素贝叶斯文本分类的性能影响进行了详细的研究与分析;最后,设计并使用Java在MyEclipse平台上实现了基于朴素贝叶斯方法的中文文本分类系统。本文重点分析了多变量伯努利模型与多项式模型,通过实验对比得出在中文文本分类中多项式模型优于多变量伯努利模型。为了进一步提高分类精度,本文对多项式模型的平滑因子进行了改进,实验表明具有良好的分类效果。由于朴素贝叶斯分类模型是建立在属性之间条件独立性假设之上,因此特征选择的好坏与否对分类精度有较大影响。本文通过实验表明信息增益和χ2统计量是朴素贝叶斯文本分类较好的特征选择方法。
【英文摘要】Since the technology of computer and network appeared, it had been devel
您可能关注的文档
- 葡萄滴灌设计(标准案例).doc
- 蓝牙技术科技与生活讲稿.doc
- 蕲春实验中学八年级生物试题.docx
- 薯茛鞣质成分及生物活性的研究2014119.doc
- 虎扑网站营销分析报告.docx
- 虚拟现实互动投影在科学馆博物馆方面的应用.doc
- 蔬菜的营养师价值.doc
- 虚拟语气在if条件从句中的用法.doc
- 虚拟货币的发行与管理(原版).doc
- 虞美人的简介生态习性及栽培技术.doc
- 2026《岳阳林纸中高层领导力现状、问题及对策》9200字.doc
- 2026《云南白药内部控制中存在的问题及对策研究》6500字 .doc
- 2026《云南水富云天化企业所得税会计研究》8800字 .doc
- 2026《长赐轮事件中的各类损失及海上保险问题分析》4200字.docx
- 2026《直播带货发展背景下企业品牌价值评估研究的相关理论文献研究综述》6100字.docx
- 6 怎么都快乐 课件-2025-2026学年语文一年级下册统编版.pptx
- 2026《旬邑彩贴剪纸保护与传承研究的文献综述》3300字.docx
- 2026《伊春光明集团薪酬管理改进调研报告》6000字.doc
- 《变现金句1000条》番外篇.pdf
- 第8课《时间的脚印》课件(内嵌视频)-2025-2026学年统编版语文八年级下册.pptx
原创力文档

文档评论(0)