(数据挖掘分类算法介绍.docVIP

下载本文档

12
0
约6.25千字
约 15页
2017-01-27 发布于北京
举报
版权申诉

(数据挖掘分类算法介绍.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(数据挖掘分类算法介绍

数据挖掘分类算法介绍 ? -----------------------------------------------------------------------------------------------------------------------------分类是用于识别什么样的事务属于哪一类的方法，可用于分类的算法有决策树、bayes分类、神经网络、支持向量机等等。决策树例1 一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息，计划将广告册和礼品投递给这些会员。但是投递广告册是需要成本的，不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传，有的人就算得到广告册不会购买。所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。自行车厂商首先从所有会员中抽取了1000个会员，向这些会员投递广告册，然后记录这些收到广告册的会员是否购买了自行车。数据如下： ? 事例列会员编号 12496 14177 24381 25597 ………… 输入列婚姻状况 Married Married Single Single 性别 Female Male Male Male 收入 40000 80000 70000 30000 孩子数 1 5 0 0 教育背景 Bachelors Partial College Bachelors Bachelors 职业 Skilled Manual Professional Professional Clerical 是否有房 Yes No Yes No 汽车数 0 2 1 0 上班距离 0-1 Miles 2-5 Miles 5-10 Miles 0-1 Miles 区域 Europe Europe Pacific Europe 年龄 42 60 41 36 预测列是否购买自行车 No No Yes Yes ? 在分类模型中，每个会员作为一个事例，居民的婚姻状况、性别、年龄等特征作为输入列，所需预测的分类是客户是否购买了自行车。使用1000个会员事例训练模型后得到的决策树分类如下：? 图中矩形表示一个拆分节点，矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的1000个事例，颜色最深。经过第一次基于年龄的拆分后，年龄大于67岁的包含36个事例，年龄小于32岁的133个事例，年龄在39和67岁之间的602个事例，年龄32和39岁之间的229个事例。所以第一次拆分后，年龄在39和67岁的节点颜色最深，年龄大于67岁的节点颜色最浅。节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄=67”节点中，包含36个事例，其中28个没有购买自行车，8个购买了自行车，所以蓝色的条比红色的要长。表示年龄大于67的会员有74.62%的概率不购买自行车，有23.01%的概率购买自行车。 ? 在图中，可以找出几个有用的节点： 1. 年龄小于32岁，居住在太平洋地区的会员有72.75%的概率购买自行车； 2. 年龄在32和39岁之间的会员有68.42%的概率购买自行车； 3. 年龄在39和67岁之间，上班距离不大于10公里，只有1辆汽车的会员有66.08%的概率购买自行车； 4. 年龄小于32岁，不住在太平洋地区，上班距离在1公里范围内的会员有51.92%的概率购买自行车； ? 在得到了分类模型后，将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。 ? 数据挖掘的一般流程第一步，建立模型，确定数据表中哪些列是要用于输入，哪些是用于预测，选择用何种算法。这时建立的模型内容是空的，在模型没有经过训练之前，计算机是无法知道如何分类数据的。 ? 第二步，准备模型数据集，例子中的模型数据集就是1000个会员数据。通常的做法是将模型集分成训练集和检验集，比如从1000个会员数据中随机抽取700个作为训练集，剩下300个作为检验集。第三步，用训练数据集填充模型，这个过程是对模型进行训练，模型训练后就有分类的内容了，像例子图中的树状结构那样，然后模型就可以对新加入的会员事例进行分类了。由于时效性，模型内容要经常更新，比如十年前会员的消费模式与现在有很大的差异，如果用十年前数据训练出来的模型来预测现在的会员是否会购买自行车是不合适的，所以要按时使用新的训练数据集来训练模型。 ? 第四步，模型训练后，还无法确定模型的分类方法是否准确。可以用模型对300个会员的检验集进行查询，查询后，模