- 1、本文档共24页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术第
数据挖掘概念与技术;第一章 引论;1.1 为什么进行数据挖掘;定义:从大量的数据中提取有趣的(非平凡的,隐 含的,以前未知的和潜在有用的)模式或知识。
“数据中发现知识”(KDD)
;;数据库数据
数据库管理系统(DBMS):数据+软件
关系数据库:表组成
;数据仓库
从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。;数据立方体;事物数据
数据库事务(Database Transaction) ,是指作为单个逻辑工作单元执行的一系列操作,要么完全地执行,要么完全地不执行。
设想网上购物的一次交易,其付款过程至少包括以下几步数据库操作:
一、更新客户所购商品的库存信息
二、保存客户付款信息--可能包括与银行系统的交互
三、生成订单并且保存到数据库中
四、更新用户相关信息,例如购物数量等等;
其他类型的数据
股票交易数据
文本 图像 音频视频
未知的;1.4.1 类/概念描述:特征化与区分
数据特征化
目标数据的一般特性或特征汇总
类/概念 数据区分
将目标类数据对象的一般性与一个或多个 对比类对象的一般特性进行比较
特征化和区分; 1.4.2 挖掘频繁模式、关联和相关性
频繁模式是在数据中频繁出现的模式
1.频繁项集、频繁子序列、频繁子结构
2.挖掘频繁模式可以发现数据中的关联和相关性
例如:单维与多维关联;1.4.3 用于预测分析的分类与回归
分类和预测
找出描述和识别类或概念的模型( 函数), 用于将来的预测
例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类
表示: 决策树(decision-tree), 分类规则, 神经网络
回归
建立连续值函数模型
一般线性回归,logistic回归
;1.4.4 聚类分析
分析数据对象,不考虑类标号
聚类原则: 最大化类内的相似性, 最小化类间的相似性
;1.4.5 离群点分析
离群点: 与数据的的一般行为或模型不一致
孤立点可以被视为例外, 但对于欺骗检测和罕见事件分析, 它是相当有用的
;1.4.6 所有模式都是有趣的吗
一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的
建议的方法: 以人为中心, 基于查询的, 聚焦的挖掘
兴趣度度量 : 一个模式是 有趣的 如果它是 易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 或验证了用户希望证实的某种假设
客观与主观的兴趣度度量 :
客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等.
主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性(actionability), 等.
;1.4.6 所有模式都是有趣的吗
发现所有有趣的模式: 完全性
数据挖掘系统能够发现所有有趣的模式吗?
关联 vs. 分类 vs. 聚类
仅搜索有趣的模式: 优化
数据挖掘系统能够仅发现有趣的模式吗?
方法
首先找出所有模式, 然后过滤掉不是有趣的那些.
仅产生有趣的模式— 挖掘查询优化
;1.5 使用什么技术;1.6.1 商务智能
例如:挖掘潜在客户
商务决策
1.6.2 Web搜索引擎
Google 的流感趋势
·
·
·;挖掘方法
挖掘各种新的知识类型
挖掘多维空间中的知识
数据挖掘——跨学科的努力
提升网络环境下的发现能力
处理不确定性、噪声或不完全数据
模式评估和模式或约束指导的挖掘
用户界面
交互挖掘
结合背景知识
特定的数据挖掘和数据挖掘查询语言
数据挖掘结果的表示和可视化
;
有效性和可伸缩性
数据挖掘算法的有效性和可伸缩性
并行、分布式和增量挖掘算法
数据库类型的多样性
处理复杂的数据类型
挖掘动态的、网络的、全球的数据库
数据挖掘与社会
数据挖掘的社
您可能关注的文档
- 数列高考常见习题型分类汇总.doc
- 数列知识点温习.ppt
- 数列知识点及常用.docx
- 数列通项公式地办法总结.doc
- 数字0-10地规范写法.doc
- 数地发展史.ppt
- 数地开方知识点与温习.doc
- 数字4地分解和组合.pptx
- 数字万用表使用详细.pptx
- 数字信号处置第2章习题答案.ppt
- 2023年12月江西九江市市民热线服务中心公开招聘话务员笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月江西遂川天然气有限公司客服专员公开招聘1人笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月杭州市上附外国语学校(民办)公开招聘5名优秀教育人才笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月新疆师范大学面向社会公开招聘20名事业编制中小学教师(第三批)笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月新疆生产建设兵团第十二师度面向社会公开招聘29名事业单位教育教师类岗位工作人员215笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月江苏扬州市公安局江都分局招考聘用巡防警务辅助人员24人笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月浙江宁波市江北区旅游协会1人笔试笔试历年典型考题及考点研判与答案解析.docx
- 电力设备行业研究报告.docx
- 2023年12月浙江丽水市体育运动训练中心招考聘用优秀退役运动员笔试笔试历年典型考题及考点研判与答案解析.docx
- 2023年12月江西省资溪县事业单位下半年公开招考高素质和短缺专业人才笔试笔试历年典型考题及考点研判与答案解析.docx
最近下载
- 【小红书运营】小红书KOS(KEY OPINION SALES)产品手册.pdf
- 设备采购 投标方案(技术方案).docx
- 创印染之美源艺术之趣——民间印染在幼儿园美术活动中的实践与研究-来源:中国校外教育(第2020020期)-中国儿童中心.pdf VIP
- 吾悦新员工入职培训(SSC大厅)考试试卷.doc VIP
- 如何提升小学生的阅读理解能力ppt课件-.ppt
- 科技英语语法_西安电子科技大学中国大学mooc课后章节答案期末考试题库2023年.docx
- 2023_2024学年安徽省合肥市七年级下册期末语文试题(附答案).pdf VIP
- 公路工程质量评定标准(2021年-2022年).doc VIP
- 2022-2023学年北京市朝阳区八年级(下)期末物理试卷及答案解析.pdf
- 在线网课知慧《中国书法艺术》课后章节测试答案.docx
文档评论(0)