数据挖掘--自行车.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
随着社会的发展  ,越来越多的人趋于购置私家车,  但又由于油价越来越贵  ,交通越来越拥 挤。更多的人倾向于购置既省钱又环保的自行车。  本报告针对给出的案例,  运用  EXCEL中的 数据挖掘工具剖析影响人们购置自行车的各个因素:如有没有私家车,有没有家庭,收入, 所受的教育等。 一.预测的目的 同过对自行车购置的预测,能够有效的解决自行车生产商关于其市场的定位,适合的人 群,以及客户的购置能力有一个很好地把握。能够帮助其更好的销售产品,好像“啤酒与尿 布”同样,能够提高公司的利润率。其次,经过预测,能够改良公司的产业构造,使其更为 切合市场的需求。提高公司的竞争力。关于从公司——顾客这整条价值链的提升有很大的帮 助。 二.问题的分解 关于案例中的数据中影响人们购置自行车的各个因素单个进行剖析,找出最大的影响因素。 关于各个因素成立一个数据模型,预测实例购置自行车的可能性。 对所成立的模型进行测试。 用所成立的模型进行预测。 三.重点技术及工具 聚类剖析 决议树模型 EXCEL的数据挖掘工具神经网络模型 正确性图表 分类矩阵 MicrosoftSQL2008,MicrosoftEXCEL2007,SQL2005数据挖掘外接程序 四.数据挖掘与预测 随着信息技术的高速发展,人们积累的数据量急剧增长,怎样从海量的数据中提取有用 的知识成为事不宜迟。数据挖掘就是为顺应这种需要应运而生发展起来的数据办理技术。其 主要任务是关系剖析、分类、预测时序模式和偏差剖析等。 数据初步办理:将数据分为两个部分一为剖析数据(定型数据与测试数据),二为预测数据 神经网络模型 由于所要剖析的各个因素存在大量的非线性的关系,关于案例中最后的预测数据我们可能从 中找到合适的线性关系来得出构造,而运用神经网络模型能够解决这类非线性的关系。 它的构筑理念是受到生物  (人或其他动物)神经网络功能的运作启迪而产生的。  人工神经网 络往常是经过一个鉴于数学统计学种类的学习方法(  LearningMethod  )得以优化,所以人 工神经网络也是数学统计学方法的一种实际应用。神经网络能够有  MP模型和  ANN模型。其 中ANN模型又分为前馈型网络和反应型网络。 首先我们利用数据挖掘工具中的建模工具——分类。将已经统计好的数据运用随机抽样 的方法分为定型数据和测试数据。定性数据用来成立数据模型,测试数据用来测试模型的准 确性。(定型数据492条,测试数据212条) (1)定型数据 定型数据是指用来成立模型的数据,这些数据是从原始数据中随机抽选出来的。 我们运用建模工具——神经网络,利用定型数据以PurchasedBike为预测值,其他为输入值获得我们所需要的模型。 能够看出决议变量PurchasedBike有两个属性值,其给预测带来了很大的方便,上图我们能够看出其的概率散布是从高到低的,这种效果有助于我们找出其中的重点因素,其中对预测结果影响小的因素。其次神经网络模型也详细给出了在定型数据中详细的买或不买自行车的详细数字方面我们统计。  摒弃 (2)测试数据。 测试数据是指用来测试模型可行度与可信度的数据,这些数据是从原始数据中随机抽选 出来的。 我们利用已经获得的定型数据的模型,用测试数据运用两种工具进行正确性校验。 正确性图表如下列图: 能够看出红色的线代表定型数据,蓝色的线代表随机的推断。该图表的X轴表示用于比较预测的测试数据集的百分比。给图表的Y轴表示预测为指定状态的值的百分比。有此图能够看出此数据模型提升%。 分类矩阵如下如图: 能够看出原定型数据的模型正确率%,错误率%,能够看出所成立的模型的正确度超过 50%。同时上图也详细给出了买车,与不买车的正确的概率。 由于以上的定型数据和测试数据都是从统计的数据中随机抽取的,所以其所成立的模型的客 观性及正确性无法有较大的保证。因此我又对以上的步骤重复几次。 (3)对未知数据的预测。 根据以上得出的比较正确的定型数据的模型,我们能够利用关系剖析模型或决议树模 型中获得的主要因素作为输入值,经过增添多个因素对未知数据进行预测。这样预测的结果 比较正确,可信度高。 (4)单个因素关于是否够买自行车的影响 运用神经网络得出的模型经过改变因素如Cars能够看出随着拥有的私家车的数量的 提高,人们越来越不趋于购置自行车。其次,看以看出一个家庭拥有的孩子数越多越不会购 买自行车,收入越高也越趋于不买自行车如下列图:左边为Cars为1,右边为Cars为4 关于Income来说,与我们平常的认识不同,收入越高人们越趋向于购置自行车。 关于Children来说,一个家庭拥有的孩子越多,越不趋于购置自行车。 而在现实生活中往往不是单个因素起决定性作用的,往往是多个因素的组合, 了预测的难度,

文档评论(0)

152****7128 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档