自动化前沿 第四讲 数据挖掘技术及其应用 宋执环 浙江大学工业控制研究所 主要内容 一、数据挖掘概述 数据挖掘概念 数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。 数据挖掘与KDD 知识发现(KD) 输出的是规则 数据挖掘(DM) 输出的是模型 共同点 两种方法输入的都是学习集(learning sets) 目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化 异常检测 异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。 异常探测应用 电信和信用卡欺骗 贷款审批 药物研究 气象预报 金融领域 客户分类 网络入侵检测 故障检测与诊断等 什么是异常(outlier)? Hawkins(1980)给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。 聚类算法对异常的定义:异常是聚类嵌于其中的背景噪声。 异常检测算法对异常的定义:异常是既不属于聚类也不属于背景噪声的点。他们的行为与正常的行为有很大不同。 异常检测方法的分类 基于统计(statistical-b
您可能关注的文档
- 授课内容2_静力学公理和物体受力分析.ppt
- 兽用中药、天然药物临床试验技术指导原则等5个技术指导原则.docx
- 输电线路的设计—基础的设计.ppt
- 蔬菜病虫害发生特点.ppt
- 蔬菜品种选育现状·问题·对策.doc
- 暑假专题 数据收集和处理(含答案)-.doc
- 暑期数学建模培训-2006B艾滋病疗法评价及疗效预测.ppt
- 数计系2011届毕业的设计(论文)模板.doc
- 数据仓库与数据挖掘2.doc
- 数据仓库与数据挖掘技术 第5章.ppt
- 2026住宅小区消防改造建筑方案(执行版,含总平面布置/疏散流线/消防节点).docx
- 2026制造工厂人力资源规划与排班配置方案(执行版,含排班模型/岗位编制/缺口清单).docx
- 2026人工智能企业内训实施计划(执行版,含培训安排/案例任务/考核清单).docx
- 2026仓储物流园总平面布置建筑方案(执行版,含车流组织/仓位分区/消防间距).docx
- 2026老旧办公楼节能改造建筑方案(执行版,含围护结构/节能设备/施工节点).docx
- 2026Python文件批量重命名与归档脚本方案(执行版,含文件样例/处理脚本/归档规则).docx
- 2026企业会计准则长期股权投资核算指南(执行版,含成本法分录/权益法分录/减值检查表).docx
- 2026社区养老服务中心项目可行性研究报告(执行版,含服务需求/建设内容/运营预算).docx
- 2026物流园冷链仓储项目可行性研究报告(执行版,含选址分析/设备配置/财务测算).docx
- 2026企业会计准则现金流量表编制口径手册(执行版,含分类口径/填报模板/勾稽检查表).docx
最近下载
- 2025年江西财大mba面试题库及答案.doc VIP
- 汕头文化馆面试题及答案.docx VIP
- 在线网课学习课堂《学术交流英语(哈工 )》单元测试考核答案.pdf VIP
- 2025中华护理学会团体标准——抗肿瘤药物静脉给药技术.pptx
- DLT5210.1-2021电力建设施工质量验收规程(全word表格版)..doc
- 《智慧化税费申报与管理》教案 绪论.pdf
- 中职英语语文版(2021)基础模块2Unit 1 The Spring Festival 教案(表格式)(内嵌音频+视频).pdf VIP
- 涵洞盖板预制施工方案首件.pdf VIP
- 幼儿园教育中生活教育的实践研究课题报告教学研究课题报告.docx
- 第四届全国冶金矿山行业职业技能竞赛(电气设备点检员赛项)理论参考试题库(含答案).docx VIP
原创力文档

文档评论(0)