- 50
- 0
- 约2.42千字
- 约 5页
- 2017-06-07 发布于湖北
- 举报
数据挖掘的第二次作业1.下表由雇员数据库的训练数据组成,数据已泛化。例如,年龄“31…35”表示31到35的之间。对于给定的行,count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。?departmentstatusagesalarycountsalessenior31...3546K...50K30salesjunior26...3026K...30K40salesjunior31...3531K...35K40systemsjunior21...2546K...50K20systemssenior31...3566K...70K5systemsjunior26...3046K...50K3systemssenior41...4566K...70K3marketingsenior36...4046K...50K10marketingjunior31...3541K...45K4secretarysenior46...5036K...40K4secretaryjunior26...3026K...30K6?1)如何修改基本决策树算法,以便考虑每个广义数据元组(即每个行)的count。Status 分为2个部分:Department分为4个部分:Senior 共计52Sales 共计110Junior 共计113Systems 共计 31Marketing 共计14Secretary 共计10Age分为6个部分:Salary分为6各部分:21…25 共计20 26K…30K 共计4626…30 共计49 31K…35K 共计40 31…35 共计79 36K…40K 共计4 36…40 共计10 41K…45K 共计4 41…45 共计3 46K…50K 共计63 46…50 共计4 66K…70K 共计8 位位位位由以上的计算知按信息增益从大到小对属性排列依次为:salary、age、department,所以定salary作为第一层,之后剩下的数据如下:departmentstatusagesalarycountsalessenior31...3546K...50K30systemsjunior21...2546K...50K20systemsjunior26...3046K...50K3marketingsenior36...4046K...50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下:3)给定一个数据元组,它在属性department,?age和salary上的值分别为“systems”,“26...30?”和“46...50K”。该元组status的朴素贝叶斯分类结果是什么?P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=26…30|status=senior)=1/52=0.0192P(age=26…30|status=junior)=49/113=0.4336P(salary=46K…50K|status=senior)=40/52=0.7692P(salary=46K…50K|status=junior)=23/113=0.2035使用上面的概率,得到:P(X|status=senior)=P(department=systems|status=senior)*P(age=26…30|status=
您可能关注的文档
最近下载
- 珍惜战友情谊 密切内部关系.docx VIP
- PowerFlex 700变频器用户手册(中文).pdf
- 2025年厦门事业编考试真题及答案 .pdf VIP
- 2025年湖南科技大学中国近现代史纲要期末考试模拟题必考题.docx VIP
- 2025年宁夏大学微生物学专业《微生物学》期末试卷及答案.docx VIP
- 宁夏大学土壤学笔记.docx VIP
- 2025年山东劳动职业技术学院单招语文测试模拟题库附答案.docx VIP
- 2025(人教2019版)化学必修第二册 第五章单元解读课件.pptx
- 厦门市同安区事业单位招聘考试题目及答案2025.docx VIP
- 建筑工程论文8000字.pdf VIP
原创力文档

文档评论(0)