- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验五 贝叶斯分类 实验内容: 生成目标邮件方案,Adventure Works 的市场部希望通过向特定客户发送邮件的方式来提高销售量。公司希望通过调查已知客户的特性来找到可应用于潜在客户的模式。公司希望使用已发现的模式来预测哪些潜在客户最有可能购买自己的产品。 公司的数据库 Adventure Works DW 包含一个现有客户列表和一个潜在的新客户列表。创建一个目标邮件方案,包含决策树和贝叶斯分类挖掘模型,这些模型能够提供潜在客户列表中最有可能购买产品的客户的建议。 决策树模型(Decision Tree) ID3方法基本思想 当前国际上最有影响的示例学习方法首推J.R.Quinlan的ID3(Interative Dicmiser versions3). 原理: 首先找出最有判别力的特征,把数据分成多个子集,每个子集又选择最有判别力的特征进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树。 J.R.Quinlan的工作主要是引进了信息论中的互信息,他将其称为信息增益(information gain),作为特征判别能力的度量,并且将建树的方法嵌在一个迭代的外壳之中。 平均互信息 I(U,V) = H(U) ? H(U|V) I(U,V)称为U和V之间的平均互信息.它代表接收到符号集V后获得的关于U的信息量。 对输入端U只有U1,U2两类,互信息的计算公式为: 实例计算 对于气候分类问题进行具体计算有: ⒈ 信息熵的计算 信息熵: 类别出现概率: |S|表示例子集S的总数,|ui|表示类别ui的例子数。 对9个正例和5个反例有: P(u1)=9/14 P(u2)=5/14 H(U)=(9/14)log(14/9)+(5/14)log(14/5)=0.94bit ⒉ 条件熵计算 条件熵: 属性A1取值vj时,类别ui的条件概率: A1=天气 取值 v1=晴,v2=多云,v3=雨 在A1处取值晴的例子5个,取值多云的例子4 个,取值雨的例子5 个,故: P(v1)=5/14 P(v2)=4/14 P(v3)=5/14 取值为晴的5 个例子中有2 个正例、3个反例,故: P(u1/v1)=2/5, P(u2/v1)=3/5 同理有:P(u1/v2)=4/4, P(u2/v2)=0 P(u1/v3)=2/5, P(u2/v3)=3/5 H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4) +0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3)) = 0.694bit ⒊ 互信息计算 对 A1=天气 处有: I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得: I(气温)=0.029 bit I(湿度)=0.151 bit I(风)=0.048 bit ⒋ 建决策树的树根和分枝 ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是: F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14} 其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。 ⒌ 递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息. (1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。 (2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。 这样就得到下图的决策树。 C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。 作业 1 写出使用ID3方法建立判断天气类别决策树模型的计算过程。并判断某天早晨气候特征为 天气
文档评论(0)