- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(4)实验过程 (3)步骤3:建模 * 第*页,共36页 图3.4 分类模型训练结果 (4)实验过程 (4)步骤4:评估 检验集分类正确率为84.3%(不算太差),可以用于评估新申请客户。 若希望得到更高质量分类器,则可以考虑—— 修改算法参数 进行属性评估 进行实例选择 选择其他有指导学习算法 * 第*页,共36页 通过无指导聚类技术评估输入属性 检查输入属性是否能够很好地定义数据中所包含的类。 步骤—— (1)执行聚类(k-means算法),发现309和381个实例被分别分类到Cluster0和Cluster1中(大小近似相等的簇),与实际分类情况极其接近,可认为簇质量较高。 初步断定输入属性对于实例的分类能力是较强的。 (2)对属性进一步分析,包括—— ①对缺失属性值进行检测(Preprocess 预处理查看Missing) ②对所有属性的分类能力进行检测,找出具有较大/较小分类能力的属性。期望利用具有较大分类能力的属性,重新学习,建立更高质量的分类模型。 * 第*页,共36页 通过无指导聚类技术评估输入属性 发现—— nine、ten、eleven和twelve 4个属性具有较好的分类预测能力 one、two、four、five和six 5个属性具有较差的分类预测能力 结论——可以仅使用较好分类预测能力的4个属性建模,在提高效率的同时,又不降低分类器的质量。 * 第*页,共36页 通过无指导聚类技术评估输入属性 * 第*页,共36页 (a) (b) (c) (d) (e) (f) (g) (h) (i) 图3.10 信用卡筛选数据集几个属性的Visualize cluster assignments窗口 通过无指导聚类技术选择实例 (3)通过实例选择来提高模型质量 方法——选择每个类中取代表性属性值的20个实例,其中分类属性值为在各个类中出现比例最高的属性值(如one属性的b值);数值属性值为接近各类中均值的取值(如two属性的25和22.67,最典型实例为属性two取这两个值或接近这两个值的实例)。 结果——92.2%的分类正确率。 结论——一个使用类代表性属性值选择的300个最典型的数据实例建立的有指导模型能够比用690个训练实例建立的模型效果更好。 * 第*页,共36页 本章小结 * 第*页,共36页 图3.12 第3章内容导图 清华大学出版社 第3章 数据库中的知识发现 知识发现的基本过程 KDD过程模型的应用 实验:KDD案例 本章目标 了解知识发现的基本过程 掌握KDD过程模型的应用 学习KDD实验案例 * 第*页,共36页 3.1 知识发现的基本过程 数据库中的知识发现(Knowledge Discovery in Data, KDD) 从数据集中提取可信的、新颖的、具有潜在使用价值的能够被人类所理解的模式的非繁琐的处理过程。 KDD一词是Usama M.Fayyad于1989年首次提出,并给出如上定义。 定义解析 KDD——一个处理过程,大部分步骤是系统自动执行的; 数据集——一个有关事实的集合; 模式——针对某个数据集,描述了数据自身的特性; 可信的——要求发现的模式必须经过了正确性检验,能够应用到新数据中; 新颖的——表示发现的模式应该是以前没有发现的、希望得到的新发现; 潜在使用价值——表示发现的模式应该有价值、有意义,价值和意义一般不能直接从数据中看出来或查询和搜索出来,是可以被利用的潜在价值; 可被人理解——发现的模式是人们容易理解的,从而更好的被评估和利用。 * 第*页,共36页 3.1.1 KDD过程模型 * 第*页,共36页 1、经典模型(阶梯处理模型,Fayyad等提出,9步骤)—— (1)数据准备——了解应用领域情况,熟悉背景知识,确定用户要求。 (2)数据选择——根据用户要求从数据库中提取与KDD相关的数据,会利用一些数据库操作对数据进行处理。 (3)数据预处理——对数据进行加工,检查数据的完整性及数据的一致性,对其中的噪声数据、缺失数据进行处理。 (4)数据缩减——对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其他操作减少数据量。 (5)确定KDD的目标——根据用户要求,确定KDD是发现何种类型的知识。 (6)确定知识发现算法——根据目标选择合适的知识发现算法,包括选取合适的模型和参数,并使得知识发现算法与整个KDD的评价标准相一致。 (7)数据挖掘——运用算法,从数据中提取出用户所需要的知识。 (8)模式解释——对发现的模式进行解释。为了取得更为有效的知识,可能会返回到前面处理步骤中反复进行前面的KDD过程,从而提取出更有效的知识。 (9)知识评价——将发现的知识以用户能理解的方式呈现,同时对知识进行检验和评估。 3.1.1 KDD过程模
您可能关注的文档
最近下载
- 交直流电力系统的分析和控制.pdf VIP
- 初中英语必背单词2000个(按词性分类带音标).docx
- 统编版五年级下册语文全册教案【三】-统编版五年级下册语文教案-已转换.docx VIP
- 装修监理规划范本样本.doc VIP
- 中国共产党历史1921-2021(广州大学)学习通网课章节测试答案.docx VIP
- 江苏和鼎网架钢结构工程有限责任公司钢结构桁架吊装安装专项施工方案.doc VIP
- 装饰装修工程监理细则装饰装修工程监理细则.doc VIP
- 年产40万平石墨烯散热膜项目环评(新版环评)环境影响报告表.pdf VIP
- 氧化石墨烯制备关键技术成果转化项目环评资料环境影响.docx VIP
- 2025年风电场产业现状与发展前景趋势.docx VIP
原创力文档


文档评论(0)