- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯分类算法在毕业生就业预测方面的研究.pdf
第 27 卷 第 5 期 广 东 教 育 学 院 学 报 2007 年 10 月
Vol . 27 No . 5 J our nal of Guangdong Educatio n In stit ut e Oct . 2007
朴素贝叶斯分类算法在毕业生就业预测方面的研究
程昌品
(广东教育学院 计算机科学系 ,广东 广州 5 10303)
摘要 :朴素贝叶斯分类算法应用于毕业生就业预测分析 ,关键是建立有效的分类模型. 文章提
出了一种有效分类模型的发现算法 ,并研究了该算法实施中的零值属性计数 、缺失数据问题及解决
方法 ,能有效解决毕业生就业预测的可靠性问题.
关键词 :数据挖掘 ;朴素贝叶斯分类 ;分类模型
中图分类号 : TP 3 11. 13 文献标识码 :A 文章编号 :1007 - 8754 (2007) 05 - 0079 - 04
引言
随着我国高校历年扩招的影响, 每年毕业的大学生越来越多, 他们的就业前景如何 ?趋势将怎样 ?哪些因
素对学生就业影响较大 ?这是 目前许多人非常关注的敏感话题. 根据大量已毕业学生的就业情况, 预测某毕
业生是否能够就业的问题, 实际是一个数据挖掘问题. 数据挖掘[ 1] 的常规技术有聚类 、决策树 、数理统计等
方法. 数理统计中的贝叶斯方法由于具有扎实的数学理论基础以及综合先验信息和数据样本信息的能力, 正
在成为当前机器学习和数据挖掘[ 2] 的研究热点之一. 在众多贝叶斯学习方法中, 朴素贝叶斯分类[ 3] 由于条
件属性和决策类别间关系清晰, 分类速度快, 并具有良好的健壮性, 已成功地应用到许多领域. 笔者对毕业生
就业预测问题应用了朴素贝叶斯分类算法, 取得了良好的效果.
贝叶斯分类算法基于贝叶斯定理. 朴素贝叶斯分类算法[ 4] 将训练实例集 S 分解成属性向量 A 和决策类
别变量 H , 假定属性向量的各分量相对于决策变量是相对独立的, 也就是说各个分量独立地作用于决策变
量. 通过对分类算法的比较研究, 朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美, 表现出了
高准确率和高速度.
1 朴素贝叶斯分类算法应用于毕业生就业预测
定义 1 设 X 是类标号未知的数据样本. 设 H 为某种假定, 如数据样本 X 属于某特定的类 C. 对于分类
问题, 我们希望确定 P ( H | X) , 即给定观测数据样本 X , 假定 H 成立的概率. 贝叶斯定理给出了如下计算
P ( H | X) 的简单有效的方法 :
P ( X | H) P ( H)
P ( H | X) = , (A)
P ( X)
其中 H 为要检验的假设, X 为与假设有关的数据样本.
从分类的观点来看, H 是决策类别变量并代表预测类. 数据样本 X 是由输入属性的值决定的.
P ( X | H) 代表假设 H 成立的情况下, 观察到 X 的条件概率. P ( H) 是先验概率, 或称 H 的先验概率, 表
示在任何数据样本出现证明之前假设 H 的概率. 条件和先验概率可以用训练数据集计算出来. P ( H | X ) 是
后验概率, 或称条件 X 下 H 的后验概率.
毕业生就业预测问题 :假定数据样本 X = { 男, 学生干部, 未获取学位, 毕业论文成绩良好, 综合成绩 82
收稿 日期 :2006 - 12 - 11
( )
基金项 目:广东省十五规划资助项 目 05 SJ Y009
( )
作者简介 :程昌品 1963 - ,男 ,湖北监利人 ,广东教育学院计算机科学系副教授.
文档评论(0)