logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

数据挖掘1章引言要点解析.ppt 62页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
* 序列分析 序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 * 偏差检测与模式相似性挖掘 偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。 * Web数据挖掘 Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。 Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。 Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究 * 数据挖掘系统的结构 数据挖掘系统可以采用三层的C/S结构: 第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务器端。 * 数据挖掘系统的结构-图形用户界面 该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。 用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。 此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。 * 数据挖掘系统的结构- 数据挖掘引擎 数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。 该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。 * 数据挖掘系统的结构-数据库与数据仓库 该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。 数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。 * 数据挖掘常用技术 生物学方法 人工神经网络 遗传算法 信息论方法 决策树 集合论方法 约略集 模糊集 最邻近技术 统计学方法 可视化技术 * 生物学方法-神经网络方法 神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。 在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。 * 生物学方法-神经网络方法 神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。 以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型: 前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 反馈式网络:以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 自组织网络:以ART模型、Koholon模型为代表,用于聚类。 * 生物学方法-遗传算法 遗传算法(Genetic Algorithms,简记为GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。 遗传算法的研究历史比较短,是从20世纪60年代末期到

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556