决策树算法实例.docVIP

下载本文档

24
0
约4.65千字
约 6页
2019-06-30 发布于河北
举报
版权申诉

决策树算法实例.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树算法实例

机器学习课程报告基于ID3算法的决策树对网络购物满意度的预测摘要：近年来，随着信息技术的不断发展壮大，尤其是大数据挖掘的理论和方法发展迅速，已经在许多实际生产生活中得到应用。大数据挖掘的理论和方法对数据本身没有进行任何的假设，只是通过对数据本身的学习从而建立相应的模型。本文将基于决策树的ID3算法，对某购物网站网购服务评价的数据进行建模，将对买家网购满意度进行预测，以便于卖家更好地完善网购流程。关键词：大数据挖掘；决策树；ID3算法。 0引言：伴随着信息科技技术的迅速发展，网络购物越来越受到人们的关注。这种足不出户的购物方式深受人们的喜爱，逐渐成为一种潮流。在人们享受着方便、价格便宜、不受时间和地点限制带来的便捷的同时，网络购物的劣势也显现出来。买家通常要面临售后服务、卖家信用、网上支付风险等诸多问题。此时，买家满意度便成了衡量卖家服务质量的标准。建立买家网络购物满意度预测模型，有利于规范网络购物过程中不健全的地方，使网络购物的环境得到净化。决策树算法利用的是一种归纳式的学习算法，目的在于从数据源中推理和归纳出树形结构的决策树知识表现形式。而ID3算法作为决策树学习算法的主要内容，在处理实际问题上有着举足轻重的作用。ID3 算法将信息熵这一概念与决策树算法相结合。ID3算法的核心是对决策树中各节点上的属性进行选择，将信息增益看作分裂属性的评判标准，先计算所有属性的信息增益，然后由信息增益大小来确定测试属性，将信息增益最大的属性作为测试属性来对决策树进行划分。ID3 算法对当前节点中的属性进行评估，即选择最大信息增益的属性作为测试属性，节点再按照测试属性的属性取值情况进行节点划分，对于划分的节点递归地使用测试属性选取方法进行划分，进行到在全部的子集中只有一种类别的数据的时候停止。本文将采用ID3算法对网络购物中买家满意度进行建模，从而达到预测网络购物中买家满意度的功能。 1 模型建立： 1.1数据准备：为了更加方便地描述，本文采用评价网络购物中的满意度预测的实例，来详细地运用和解决机器学习中的决策树算法。具体如下：当经行了网络购物，在收到网购货物后要对本次网络购物的服务进行评价，满意或不满意。目标变量设定成二分类变量：满意（设置为0）或者不满意（设置为1）。相应的自变量由网购过程中产生的数据组成，比如产品质量、卖家服务态度、收货时长等。这里，给出一份某网站对网络购物满意度的调查情况，得到的数据如表1所示：表1:网络购物售后评价买家编号产品质量卖家服务态度收货时长（天）满意度 01 良好良好 1.5 0 02 良好良好 2.3 0 03 良好一般 1.2 0 04 良好一般 2.2 1 05 一般良好 1.6 0 06 一般良好 2.7 1 07 一般一般 1.4 1 08 一般一般 2.8 1 由表1可以看出，产品质量、卖家服务态度都为离散型变量，收货时长为连续型变量。满意度中1为不满意、0为满意。 1.2数据处理及模型建立：将所得数据分别在数据分裂属性的选择以及数据的树剪枝这两方面进行处理，用基于ID3算法的决策树对网络购物的满意度进行预测： ??所谓分裂属性的选择，即应该选择产品质量、卖家服务态度两个离散变量和收货时长这个连续变量中的哪一个变量作为决策树的第一个分支。ID3算法的核心方法是以信息增益的大小来依次选择分裂树叉，即： 1.2.1ID3算法的信息增益： ??根据香农定理可知，最大信息增益的变量将会被定为ID3算法中树叉的分支，拿网络购物满意度预测模型为例，此模型有三个变量，即产品质量、卖家服务态度和收货时长。分别计算产品质量、卖家服务态度和收货时长的信息增益，将三个变量当中信息增益最大的变量看作第一阶树叉。且信息增益的计算方法是：变量的信息增益=原始信息的需求-按照某个变量划分时的信息增益。假设以产品质量为自变量，产品质量的信息增益=原始信息的需求—按照产品质量划分所需要的信息需求。其中原始的信息需求的计算方法为: （1）其中D为目标变量，实例中为满意度。m=2，即满意和不满意两种情况。则分别表示网购不满意的概率以及网购满意的概率。表格中一共有8条数据，满意4条，不满意4条。其概率都为1/2。（满意度）为只基于满意和不满意划分所需要的信息需求，即：（2）以产品质量划分所需要的信息需求为：（3）（3）式中，A表示在满意度中按自变量A划分所需的信息，在本文中表示按产品质量进行划分所需的信息。V表示在满意度中，按产品质量进行划分，即产品质量分别为良好、一般进行划分。因此，将产品质量划分为2个子集，{D1、D2}，V=2。即产品质量为良好的划分中，样