- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
应用数学模型分析学校就业率
应用数学模型分析学校就业率【摘要】根据就业数据,采用信息度决策树算法,给出了就业数学模型。模型对就业数据预处理,选取决策属性,实现数据挖掘并抽取就业规则知识,由就业规则知识指出哪些决策属性决定了就业单位的类别。计算结果表明,该模型算法能够正确将就业数据分类,并得到若干有价值的结论,供决策分析。
【关键词】数学模型 决策树 就业
【中图分类号】C934 【文献标识码】A 【文章编号】1009-9646(2008)09(a)-0023-02
在高校学生管理系统中,保存有大量的学生就业历史数据。如何从这些数据中找出有用的信息,提供给管理者、老师进行决策,是我们所关心的问题。采用数学模型是很好的解决方法,它将已有的一些数据转化为可供使用的知识,挖掘出关于就业的有价值信息。就业数据具有分类的预知性与离散性的特点,根据此特点选择信息度决策树算法建立决策分类树模型,挖掘出学生就业的若干规律。
1 建立模型原理
建立数学模型采用数据挖掘理论中的信息度决策树算法。数据挖掘是从大型数据库或数据仓库中发现并提取隐藏在其中的信息的一种技术,它能从数据仓库中自动分析数据,进行归纳性推理,从中发掘出潜在的模式,或产生联想,建立新的业务模型,帮助决策者调整策略,做出正确的决策[1]、[5]。信息度决策树作为当前数据挖掘的常用方法之一,是一种能看作一棵树的预测模型,在树的生长中每个分节点能够对当前数据集合空间进行分裂,以找出人们感兴趣的问题空间,在生长过程中允许选择分裂条件和修剪规则以限制其过度生长。它通过将大量数据有目的地分类,从中找出一些潜在的、对决策有价值的信息。信息度决策树算法采用信息增益率作为属性选择的度量标准,理论和实验表明,采用信息增益率比采用信息增益更好[2]、[4]。
2 数学模型
决策树方法的基本思想是采用信息论中的概念,用信息增益作为决策属性分类判别能力的度量,进行决策节点属性的选择。信息度决策树算法中,决策属性信息增益的计算方法如下:
设S是就业样本数据集,S中类别标识属性有m个独立的取值,也就是说定义了m个类ci, i=1,2,…,m;Ri为数据集S中属于ci类的子集,用ri表示子集Ri中元组的数量。
集合S在分类中的期望(平均)信息量可以由以下公式给出
I(r1,r2,…,rm)=-pilog2(pi)
式中:pi表示任意样本属于ci类的概率且pi=ri/|S|。|S|为就业样本数据集中的元组数量。
假设属性A共有υ个不同的取值{a1, a2,…,aυ},则通过属性A的取值可将数据集S划分为υ个子集,其中,Sj表示在数据集S中属性A的取值为aj的子集,j=1,2,…,υ。
如果A被选为决策属性,则这些子集将对应该节点的不同分枝。
如果sij表示Sj子集中属于ci类的元组的数量,则属性A对于分类ci(i=1,2,…,m)的熵可由下式计算
E(A)=(s1j+…+smj)×I(s1j,…,smj)/|S|
属性A的每个取值对分类cj的期望信息量I(s1j,…,smj),可由下式给出
I(s1j,…,smj)=-pijlog2(pij)
式中:pij=sij/|Sj|,它表示在Sj子集中属于ci类的比重。
由此可得到对属性A作为决策分类属性的度量值(称为信息增益)为
Gain(A)=I(r1,r2,…,rm)-E(A)
信息增益率为Ratio(A)=Gain(A)/E(A)。
该算法需要计算每个决策属性的信息增益率Ratio(A),具有最大信息增益率的属性被认定作为给定数据集S的决策属性节点,并通过该属性的每一个取值建立由节点引出的分枝。
3 数学模型的数量处理
在学生管理系统的学生就业表中,有许多属性,比如,学生学号、姓名、学业成绩和工作单位等。我们的目的是从学生就业表中挖掘出“好工作”与学生的哪些素质有关,从而提高学生的就业率。在学生的档案记录和课程记录中提取若干素质项,如:专业成绩、外语水平、计算机水平、实践能力等作为决策属性。对于用文字描述的属性,要进行量化处理。如工作单位属性,因表中元组的值是文字描述,不适宜做数学算法分析,所以工作单位要进行量化。将工作单位分为三种:国企(A)、外企(B)、私企(C)。国企大体上指国有资产企业,包括国有厂矿、科研院所、政府单位、大中专院校等。外企指外资企业,包括设在中国的外资公司。私企指私营企业,包括乡镇企业。每种单位又分为两种层次:好(1)和一般(2)。因此工作单位分为六类,即好国企(A1)、一般国企(A2)、好外企(B1)、一般外企(B2)、好私企(C1)、一般私企(C2),括号中表示类别编号。
4 依据数学模型构造决策树
首先选取学生
您可能关注的文档
最近下载
- 一种Q355级Ti微合金化高强度热轧H型钢及其生产方法.pdf VIP
- 专题11《与妻书》-备战2024年高考语文课内文言文挖空训练+知识梳理+过关训练(统编版)(解析版).docx VIP
- 2025年天津市中考语文试卷含答案.pptx VIP
- 2025年研究生入学考试《数学二》新版试卷真题(含完整解析).pdf VIP
- QA培训资料完整版.doc VIP
- 2025年四川省高考生物试卷真题(含答案解析).pdf
- 2025年高考语文课内文言文知识梳理(统编版)专题11《与妻书》(原卷版).pdf VIP
- 2025年高考语文课内文言文知识梳理(统编版)专题17《论语十二章》(原卷版).docx VIP
- 蚂蚁蜇伤诊疗规范考试试卷试题及参考答案.docx VIP
- 京津冀康养产业职业技能大赛(中药调剂赛项)理论参考试题库资料(含答案).pdf
文档评论(0)