数据挖掘作业要领.docxVIP

下载本文档

50
0
约2.42千字
约 5页
2017-06-07 发布于湖北
举报

数据挖掘作业要领.docx

数据挖掘的第二次作业1.下表由雇员数据库的训练数据组成，数据已泛化。例如，年龄“31…35”表示31到35的之间。对于给定的行，count表示department, status, age和salary在该行上具有给定值的元组数。 status是类标号属性。?departmentstatusagesalarycountsalessenior31...3546K...50K30salesjunior26...3026K...30K40salesjunior31...3531K...35K40systemsjunior21...2546K...50K20systemssenior31...3566K...70K5systemsjunior26...3046K...50K3systemssenior41...4566K...70K3marketingsenior36...4046K...50K10marketingjunior31...3541K...45K4secretarysenior46...5036K...40K4secretaryjunior26...3026K...30K6?1)如何修改基本决策树算法，以便考虑每个广义数据元组（即每个行）的count。Status 分为2个部分：Department分为4个部分：Senior 共计52Sales 共计110Junior 共计113Systems 共计 31Marketing 共计14Secretary 共计10Age分为6个部分：Salary分为6各部分：21…25 共计20 26K…30K 共计4626…30 共计49 31K…35K 共计40 31…35 共计79 36K…40K 共计4 36…40 共计10 41K…45K 共计4 41…45 共计3 46K…50K 共计63 46…50 共计4 66K…70K 共计8 位位位位由以上的计算知按信息增益从大到小对属性排列依次为：salary、age、department，所以定salary作为第一层，之后剩下的数据如下：departmentstatusagesalarycountsalessenior31...3546K...50K30systemsjunior21...2546K...50K20systemsjunior26...3046K...50K3marketingsenior36...4046K...50K10由这个表可知department和age的信息增益将都为0。所以第二层可以为age也可以为department。2)构造给定数据的决策树。由上一小问的计算所构造的决策树如下：3)给定一个数据元组，它在属性department,?age和salary上的值分别为“systems”，“26...30?”和“46...50K”。该元组status的朴素贝叶斯分类结果是什么？P(status=senior)=52/165=0.3152P(status=junior)=113/65=0.6848P(department=systems|status=senior)=8/52=0.1538P(department=systems|status=junior)=23/113=0.2035P(age=26…30|status=senior)=1/52=0.0192P(age=26…30|status=junior)=49/113=0.4336P(salary=46K…50K|status=senior)=40/52=0.7692P(salary=46K…50K|status=junior)=23/113=0.2035使用上面的概率，得到：P(X|status=senior)=P(department=systems|status=senior)*P(age=26…30|status=

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数据挖掘作业要领.docxVIP