数据挖掘应用案例-1.pptVIP

下载本文档

52
0
约1.65万字
约 70页
2019-12-09 发布于北京
举报
版权申诉

数据挖掘应用案例-1.ppt

1、本文档共70页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

[常用办公软件—PowerPoint

第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续）对于采集到的空气污染物的数据（SO2、NO、NO2、NOx、PM10和PM2.5值的含量），首先根据我国城市空气质量分级标准，分为优（Ⅰ）、良（Ⅱ）、轻微污染（Ⅲ）、轻度污染（Ⅳ）、中度污染（Ⅴ）、中度重污染（Ⅵ）、重污染（Ⅶ）七个等级。这样，经过预处理的数据包括1个类别项（空气等级）和6个影响分类的属性项（空气污染物）。第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续） 4、城市环境质量评价数据挖掘的模型构建城市环境质量评价的数据挖掘采用C4.5决策树构建模型。模型的输入包括两部分，一部分是建模专家样本数据（包括训练样本和验证样本）的输入，另一部分是建模参数的输入。部分原始样本数据经过预处理后如表4.6所示。随机抽取与处理数据（共320个数据）中2/3的数据，即240个数据样本，作为训练集构造决策树并生成决策规则。第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续） SO2 NO NO2 NOx PM10 PM2.5 空气等级 0.034 0 0.048 0.047 0.085 0.058 Ⅰ 0.025 0 0.053 0.053 0.07 0.048 Ⅱ 0.013 0 0.029 0.066 0.057 0.04 Ⅰ 0.026 0 0.026 0.026 0.049 0.034 Ⅰ 0.018 0 0.027 0.027 0.051 0.035 Ⅰ 0.019 0 0.052 0.053 0.06 0.04 Ⅱ 0.022 0 0.059 0.06 0.064 0.042 Ⅱ 0.023 0.01 0.085 0.099 0.07 0.044 Ⅱ 0.022 0.012 0.066 0.081 0.073 0.042 Ⅱ 0.017 0.007 0.037 0.048 0.069 0.04 Ⅰ 表4.6 城市空气质量建模样本数据第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续） 5、城市环境质量评价数据挖掘的结果评价上例中基于C4.5决策树，采用10-折交叉验证（10-fold cross validation），对经预处理后的总体样本（240条）进行综合评价。10-折交叉验证结果如表4.7所示。指标值指标值正确分类样本及% 229 95.4167% 均方根误差 0.1089 错误分类样本及% 11 4.5833% 相对绝对误差 6.5971% Kappa统计 0.9315 相对平方根误差 35.2377% 平均绝对误差 0.0127 样本总数 240 第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续）交叉验证混淆矩阵结果见表4.8。 a b c d e f g 分类为 39 1 0 0 0 0 0 a=Ⅰ 0 107 3 0 0 0 0 b=Ⅱ 0 2 69 2 0 0 0 c=Ⅲ 0 0 0 8 0 0 0 d=Ⅳ 0 0 0 0 6 1 0 e=Ⅴ 0 0 0 0 2 0 0 f=Ⅵ 0 0 0 0 0 0 0 g=Ⅶ 第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续）表4.8中，以第三行为例，有107个样本正确分类（属于“Ⅱ”），有3个样本本应该属于“Ⅱ”，却错误分到了“Ⅲ”。总体老说，10-折交叉验证的正确分类百分比为95.4167%，可见经抽选的专家样本数据能满足建模要求。随机抽取240条样本进行模型训练，再对训练好的网络模型，通过模型验证（预测值与实际值比对）来评价其有效性，以确保所产生的预测模型满足实际应第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续）用要求。将预处理好的数据划分为两个独立的集合：240条样本数据随机分配到训练集，其余80条数据随机分配到测试集。测试分类结果正确率如表4.9所示。该模型总的预测分类正确率达到97.5%，混淆矩阵结果如表4.10所示。这一评价结果说明，通过C4.5算法进行数据挖掘所得到的分类规则集合对未来数据样本的分类正确率能够达到较高的要求。第四章数据挖掘应用案例 4.3 案例三：城市环境质量评价（续）表4.9 模型验证结果指标值指标值正确分类样本及% 78 97.5% 平均绝对误差 0.0107 错误分类样本及% 2 2.5% 均方根误差 0.0772 Kappa 0.9639 样本总数 80 表4.10 混淆矩阵结果 a b c d e f g 分类