教材配套教学.ppt

下载文档 降价啦

16
0
约5.4千字
约 36页
2019-07-06 发布于天津
举报
版权申诉
保障服务

教材配套教学.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

（4）实验过程（3）步骤3：建模 * 第*页，共36页图3.4 分类模型训练结果（4）实验过程（4）步骤4：评估检验集分类正确率为84.3%（不算太差），可以用于评估新申请客户。若希望得到更高质量分类器，则可以考虑—— 修改算法参数进行属性评估进行实例选择选择其他有指导学习算法 * 第*页，共36页通过无指导聚类技术评估输入属性检查输入属性是否能够很好地定义数据中所包含的类。步骤—— （1）执行聚类（k-means算法），发现309和381个实例被分别分类到Cluster0和Cluster1中（大小近似相等的簇），与实际分类情况极其接近，可认为簇质量较高。初步断定输入属性对于实例的分类能力是较强的。（2）对属性进一步分析，包括—— ①对缺失属性值进行检测（Preprocess 预处理查看Missing） ②对所有属性的分类能力进行检测，找出具有较大/较小分类能力的属性。期望利用具有较大分类能力的属性，重新学习，建立更高质量的分类模型。 * 第*页，共36页通过无指导聚类技术评估输入属性发现—— nine、ten、eleven和twelve 4个属性具有较好的分类预测能力 one、two、four、five和six 5个属性具有较差的分类预测能力结论——可以仅使用较好分类预测能力的4个属性建模，在提高效率的同时，又不降低分类器的质量。 * 第*页，共36页通过无指导聚类技术评估输入属性 * 第*页，共36页（a）（b）（c）（d）（e）（f）（g）（h）（i）图3.10 信用卡筛选数据集几个属性的Visualize cluster assignments窗口通过无指导聚类技术选择实例（3）通过实例选择来提高模型质量方法——选择每个类中取代表性属性值的20个实例，其中分类属性值为在各个类中出现比例最高的属性值（如one属性的b值）；数值属性值为接近各类中均值的取值（如two属性的25和22.67，最典型实例为属性two取这两个值或接近这两个值的实例）。结果——92.2%的分类正确率。结论——一个使用类代表性属性值选择的300个最典型的数据实例建立的有指导模型能够比用690个训练实例建立的模型效果更好。 * 第*页，共36页本章小结 * 第*页，共36页图3.12 第3章内容导图清华大学出版社第3章数据库中的知识发现知识发现的基本过程 KDD过程模型的应用实验：KDD案例本章目标了解知识发现的基本过程掌握KDD过程模型的应用学习KDD实验案例 * 第*页，共36页 3.1 知识发现的基本过程数据库中的知识发现（Knowledge Discovery in Data, KDD）从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。 KDD一词是Usama M.Fayyad于1989年首次提出，并给出如上定义。定义解析 KDD——一个处理过程，大部分步骤是系统自动执行的；数据集——一个有关事实的集合；模式——针对某个数据集，描述了数据自身的特性；可信的——要求发现的模式必须经过了正确性检验，能够应用到新数据中；新颖的——表示发现的模式应该是以前没有发现的、希望得到的新发现；潜在使用价值——表示发现的模式应该有价值、有意义，价值和意义一般不能直接从数据中看出来或查询和搜索出来，是可以被利用的潜在价值；可被人理解——发现的模式是人们容易理解的，从而更好的被评估和利用。 * 第*页，共36页 3.1.1 KDD过程模型 * 第*页，共36页 1、经典模型（阶梯处理模型，Fayyad等提出，9步骤）—— （1）数据准备——了解应用领域情况，熟悉背景知识，确定用户要求。（2）数据选择——根据用户要求从数据库中提取与KDD相关的数据，会利用一些数据库操作对数据进行处理。（3）数据预处理——对数据进行加工，检查数据的完整性及数据的一致性，对其中的噪声数据、缺失数据进行处理。（4）数据缩减——对经过预处理的数据，根据知识发现的任务对数据进行再处理，主要通过投影或数据库中的其他操作减少数据量。（5）确定KDD的目标——根据用户要求，确定KDD是发现何种类型的知识。（6）确定知识发现算法——根据目标选择合适的知识发现算法，包括选取合适的模型和参数，并使得知识发现算法与整个KDD的评价标准相一致。（7）数据挖掘——运用算法，从数据中提取出用户所需要的知识。（8）模式解释——对发现的模式进行解释。为了取得更为有效的知识，可能会返回到前面处理步骤中反复进行前面的KDD过程，从而提取出更有效的知识。（9）知识评价——将发现的知识以用户能理解的方式呈现，同时对知识进行检验和评估。 3.1.1 KDD过程模