- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
.
.
一、计算题 (共4题,100分)
1、通过分析关于二手车的相关变量,研究这些变量怎么影响二手车的交易价格。
二手车抽样 - 预处理.csv
收集的数据包含:
变量名
代表含义
数据类型
备注
yuanjia
原价
连续变量
汽车原价
baojia
报价
连续变量
汽车报价
licheng
里程
连续变量
累计里程数(单位:万公里)
pailiang
排量.L.
连续变量
发动机单位时间内释放的能量
mali
最大马力.Ps.
连续变量
最大动力输出
changshang
厂商
离散变量
十一分类——排名前十的厂商分别用1-10表示,以及前十以外的其他水平
cheshen_type
车身结构-车类型
离散变量
四分类——“SUV”、“两厢”、“三厢”、“MPV”
pengzhuang
排除重大碰撞
离散变量
排除重大碰撞(0)存在重大碰撞(1)
waiguan_xiufu
外观修复检查
离散变量
排除外观修复(0)存在外观修复(1)
waiguan_quexian
外观缺陷检查
离散变量
排除外观缺陷(0)存在外观缺陷(1)
neishi_quexian
内饰缺陷检查
离散变量
排除内饰缺陷(0)存在内饰缺陷(1)
shangpaishijian
上牌时间
连续变量
与2017年2月之间的时间差(单位:月)
对数据进行预处理,分析应采用的模型,写出详细的思路和数据分析过程,用多种方法检验和解释模型,说明模型的实际意义。
答案解析:
因变量采用车辆报价数据,自变量选择除车辆报价数据之外的其他变量,进行线性回归分析可以看到删除了三个变量,R方和调整R方都接近1,模型拟合度很好。由于自变量中真皮座椅、外观缺陷、车身类型未通过t检验,因此需要将这三个变量删除后再做线性回归分析,可得:? ? ?
Y=1.1036-0.0646shangpaishijian-0.1064licheng-0.4235biansu+0.8482zhouju-1.0036pailiang+0.0154mali-0.1729tianchuang1+0.7581tianchuan2+0.3974daocheyingxiang-0.5061GPS-0.2864waiguan_xiufu+0.5156yuanjia+0.1665paifang-0.0199changshang
模型拟合效果很好,且通过了F检验和t检验,(常数项的t检验可以不通过)可以根据此模型对二手车进行价格评估
2、利用Apriori算法,写出下列购物篮数据的频繁项集和强关联规则(设定支持度为2,置信度为0.7)
若此购物篮数据为某超市随机选取的7位顾客的交易数据,请结合之前得到的结果为该超市提一些建议。
答案解析:
先将给定的数据整理成datahoop关联分析可识别的格式,导入datahoop平台,对变量牛肉、鸡肉、牛奶、奶酪、靴子、衣服进行关联分析。设置最小支持度为2/7=0.286,最小置信度为0,可以得到频繁项集(删除重复)。设置最小支持数为2/7=0.286、最小置信度=0.7,可以得到提升度1的有效强关联规则(删除单项)
解答:首先对原数据进行预处理至
然后再处理至
导入datahoop平台,设置支持度为0.286,置信度为0
删除重复项
一项频繁项集:
(e)、(a)、(d)、(b)、(c)
二项频繁项集:
(a,e)、(d,e)、(b,e)
再将支持度和置信度的值分别设置成0.286和0.7,导入datahoop平台
二项的有效强关联规则:
ae
e a
d e
b e
三项的强关联规则:
(a,d) e
(d,e) a
(a,b) e
从上面数据可以看出牛肉和鸡肉等肉食产品可以放在一起,方便客户选择,牛奶和奶酪则要放在附近的走道旁,让需要的顾客更方便拿取
3、以下数据是31个省市各行业的工资情况,各行业工资难免相关,因此,请先进行降维处理再进行聚类分析。
降维、聚类.xls
答案解析:
分析数据发现无缺失值,且不需要进行其他处理。本案例采用k-means算法进行聚类,因此还需考虑异常值和共线性。由于数据量太少,单独一个数据也可能是一个特殊的类,因此这里不做异常值处理。由相关系数矩阵分析发现变量之间存在共线性,所以不能直接进行聚类,接下来用主成分分析对变量进行降维处理。
设置主成分个数为2时发现累计贡献率为0.9557,效果很好,可以用PC1和PC2进行聚类分析。(这里PC1和PC2是由标准化后的变量求得的,很小,且没有量纲差距,所以聚类分析时不再进行标准化)。接下来用k-means算法对PC1和PC2进行聚类分析,分别选3,4,5个类别进行聚类,发现聚成三类时效果最好。
您可能关注的文档
- 最新项目负责人B证试题库.doc
- 最新项目划分表.doc
- 最新购房流程注意事项(含顶账房).doc
- 最新苏教版七年级英语7B期末练习题.doc
- 最新版洗胃法教案.doc
- 最新各种加油机键盘操作说明.doc
- 最新人教版八年级物理下册期末复习(青岛).doc
- 最全的监理旁站计划.doc
- 曲线拟合实验报告.doc
- 易燃易爆物质及其分类.doc
- 急性肾功能衰竭综合征的肾血管介入性诊治4例报告并文献复习.docx
- 基于血流动力学、镇痛效果分析右美托咪定用于老年患者髋部骨折术的效果.docx
- 价格打骨折 小心统筹车险.docx
- 交通伤导致骨盆骨折合并多发损伤患者一体化救治体系的效果研究.docx
- 多层螺旋CT与DR片诊断肋骨骨折的临床分析.docx
- 儿童肱骨髁上骨折后尺神经损伤恢复的预测因素分析.docx
- 康复联合舒适护理在手骨折患者中的应用及对其依从性的影响.docx
- 机器人辅助老年股骨粗隆间骨折内固定术后康复.docx
- 超声辅助定位在老年髋部骨折患者椎管内麻醉中的应用:前瞻性随机对照研究.docx
- 两岸《经济日报》全面合作拉开帷幕.docx
最近下载
- 贵州企业招聘:2025贵州省公路工程集团有限公司第二次招聘9人(公共基础知识)综合能力测试题附答案.docx VIP
- DB15_T 822-2025 在用电梯安全评估规则.docx VIP
- 2025年财务科党支部年底工作总结及2026年工作计划.docx VIP
- 邢东矿设计资料.doc VIP
- 钢管再生混凝土结构技术规程.pdf VIP
- 山东省淄博市周村区(五四制)2024-2025学年九年级上学期期末考试英语试题.docx VIP
- (完全四点形和完全四线形调和性质应用例析.doc VIP
- 治疗早期肠麻痹新药——厚朴排气合剂.pdf VIP
- DB44_T 2669-2025 文化和旅游公共数据采集规范.pdf VIP
- 原料库管理制度(二篇).doc VIP
原创力文档


文档评论(0)