- 1、本文档共88页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的概念与技术-北大ppt模版课件
* * 挖掘方法与用户交互问题 不同的用户可能对不同类型的知识感兴趣 数据挖掘系统应当覆盖广谱的数据分析和知识发现任务,包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析等 这些任务可能以不同的方式使用相同的数据库 避免开发单一的挖掘应用,需设计良好的系统可扩展性 多个抽象层的交互知识挖掘问题 由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的 对于包含大量数据的数据库,应当使用适当的选样技术,进行交互式数据探查 交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求 特殊地,类似于立方体上的OLAP操作,应当通过交互地在数据空间和知识空间下钻、上卷和转轴,挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式 纳入领域知识的问题 结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过程,并使得发现的模式以简洁的形式,在不同的抽象层表示 关于数据库的领域知识,如完整性限制和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度 ?挖掘结果的表示问题 发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示,使得知识易于理解,能够直接被人使用 如果数据挖掘系统是交互的,这一点尤为重要 要求系统采用有表达能力的知识表示技术,如树、表、图、图表、交叉表、矩阵或曲线 处理噪音和不完全数据问题 存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象 这些对象可能搞乱分析过程,导致数据与所构造的知识模型过分适应 其结果是,所发现的模式的精确性可能很差。 需要处理数据噪音的数据清理方法和数据分析方法,以及发现和分析例外情况的孤立点挖掘方法 模式评估——兴趣度问题 数据挖掘系统可能发现数以千计的模式 对于给定的用户,许多模式不是有益的,它们表示平凡知识或缺乏新颖性 使用兴趣度度量,指导发现过程和压缩搜索空间,是有效筛选有益模式的方法 ?算法的有效性和可伸缩性问题 为了有效地从数据库中大量数据提取信息,数据挖掘算法必须是有效的和可伸缩的 对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的 从数据库角度,有效性和可伸缩性是数据挖掘系统实现的关键问题 上面讨论的挖掘技术和用户交互的大多数问题,也必须考虑有效性和可伸缩性 引言 数据挖掘的概念与分类体系 数据挖掘的原理与方法 数据挖掘的相关国际标准 数据挖掘系统结构 数据挖掘系统设计中的若干问题 数据挖掘新技术 主要内容 数据挖掘新技术 数据流挖掘技术 基于数据立方体的挖掘 时空数据挖掘技术 移动对象挖掘技术 Web挖掘技术 …… 数据流问题的提出 电信领域:电话呼叫记录分析、网络管理数据分析 金融领域:信用卡交易分析、证券交易分析 网络监测和流量控制 Web日志与点击流分析 能源供给部门的能源供给分析 天气预报、地震预测 传感网络监控 ? ? ? 数据流的定义与特点 数据流:以顺序(ordered)、快速、随时间变化、可能无法预测并且数量巨大的流的形式连续到达的数据序列: 特点 大量、连续到达的数据,可能无限 快速变化,需要快速、实时响应 单次线性扫描算法,随机访问代价太高 只能存储数据的汇总或提纲(synopsis) 低层次、多维数据,需要多层次、多维处理 数据流研究中的主要问题 数据流查询技术 当前焦点,主要是连续查询(continuous query) 查询语言、查询计划、近似查询回答技术等 数据流分析技术 传统的统计分析,已比较成熟 结合数据仓库与OLAP技术的多维多层次分析 数据流挖掘 数据流管理系统 查询处理、资源管理、存储实现等 DBMS与DSMS的比较 DBMS DSMS 持久关系 临时数据流 一次查询(one-time query) 连续查询(continuous query) 随机访问 顺序访问(sequential access) “极大的”(unbounded)磁盘存储 有限的(bounded)主存 仅是当前状态事务 历史数据是重要的 没有实时服务 实时服务需求 相当低的更新率 可能多GB的到达率 任何粒度层次的数据 精粒度层次的数据 采取精确数据形式 数据是不精确的 准确的查询回答 近似回答 通过查询处理器、物理数据库设计决定访问计划 不可预测的、易变的数据到达情况和特征 数据流处理的挑战 多个、连续、快速、时变、有序的数据流 主存计算 查询经常是连续的 数据到来时的连续估计 随时间更新的查询结果 查询经常是复杂的 超越了“一次一成员”(element-at-a-time)的处理方式 超越了“一次-个流”(stream-at-a-time)的处理方式 超越了关系查询(科学数据库、数据挖掘、O
您可能关注的文档
- 2015·师资继续教育·演示课件(矿井供电系统及井下供电安全).ppt
- 【网络工程规划与设计案例教程】项目一_任务2_招投标文件_长兴科技职业技术学院校园网建设投标文件.doc
- 精选PPT背景(你值得拥有).ppt
- 【医学】瘢痕子宫妊娠.ppt
- 【医学】与食用受污染的三鹿牌婴幼儿配方奶粉相关的婴幼儿泌尿系结石的B超检查.ppt
- 【医学】维生素D缺乏性佝偻病.ppt
- 【医学】奧林帕斯硬式內镜清洗、保养原则.ppt
- 【六年级课程】素描基础知识ppt模版课件.ppt
- 【推荐课件】纪念抗日战争暨世界反法西斯战争胜利70周年主题班会适合各年级可编辑PPT模板.ppt
- 【小学语文精品课件】2013年语文长春版第十册《过节的思考》.ppt
- 基于琵琶教学的初中生音乐审美与创造力发展研究教学研究课题报告[001].docx
- 《固体废弃物分类回收与资源化利用的产业链整合与创新策略研究》教学研究课题报告.docx
- 基于绕口令的高中英语口语表达技巧训练教学研究课题报告[001].docx
- 高中地理实验教学与高中生综合素质提升的研究教学研究课题报告.docx
- 小学生劳动教育与生活自理能力的培养策略研究教学研究课题报告.docx
- 2 《STEM教育理念在小学科学课程中的实践探索与成效评估》教学研究课题报告.docx
- 高中地理“地球与宇宙”教学实践与探索教学研究课题报告.docx
- 基于初中生攀岩体验的心理韧性培养策略研究教学研究课题报告.docx
- 2025年制片机项目建议书.docx
- 2025年保健箱项目合作计划书.docx
文档评论(0)