数据挖掘1章引言要点解析.ppt

  1. 1、本文档共62页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 序列分析 序列(Sequence)分析:序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 * 偏差检测与模式相似性挖掘 偏差检测(Deviation Detection):用于检测并解释数据分类的偏差,它有助于滤掉知识发现引擎所抽取的无关信息,也可滤掉那些不合适的数据,同时可产生新的关注性事实。 模式相似性挖掘:用于在时间数据库或空间数据库中搜索相似模式时,从所有对象中找出用户定义范围内的对象;或找出所有元素对,元素对中两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。 * Web数据挖掘 Web数据挖掘:万维网是一个巨大的、分布广泛的和全球性的信息服务中心,其中包含了丰富的超链接信息,为数据挖掘提供了丰富的资源。 Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。 Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究 * 数据挖掘系统的结构 数据挖掘系统可以采用三层的C/S结构: 第一层:为图形用户界面,位于系统的客户端; 第二层:为数据挖掘引擎,它是数据挖掘系统的核心,位于系统的应用服务器端; 第三层:为数据库与数据仓库,位于数据服务器端。 * 数据挖掘系统的结构-图形用户界面 该模块实现用户与数据挖掘系统之间的通信,允许用户与系统交互。 用户可以通过图形化界面指定数据挖掘任务、输入有关信息,根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。 此外,该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的模式等功能。 * 数据挖掘系统的结构- 数据挖掘引擎 数据挖掘引擎是数据挖掘系统最基本、最重要的部分,是数据挖掘系统的核心。 该部分由一系列功能模块组成,分别用于关联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和WEB数据挖掘等。 * 数据挖掘系统的结构-数据库与数据仓库 该部分位于数据服务器端,包括数据库、知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识,用于搜索和对模式进行评价。 数据库与数据仓库服务器的功能是根据用户的数据挖掘请求,提取相应的数据供数据挖掘引擎使用。 * 数据挖掘常用技术 生物学方法 人工神经网络 遗传算法 信息论方法 决策树 集合论方法 约略集 模糊集 最邻近技术 统计学方法 可视化技术 * 生物学方法-神经网络方法 神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。 在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。 * 生物学方法-神经网络方法 神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的,复杂的数据。它通过模拟人脑神经元结构进行数据挖掘。 以MP模型和Hebb学习规则为基础,建立了三大类多种神经网络模型: 前馈式网络:以感知机、反向传播模型、函数型网络为代表,可用于预测、模式识别等方面。 反馈式网络:以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。 自组织网络:以ART模型、Koholon模型为代表,用于聚类。 * 生物学方法-遗传算法 遗传算法(Genetic Algorithms,简记为GI):是一种借鉴生物界自然选择和进化机制发展起来的高度并行、随机、自适应搜索算法。 遗传算法的研究历史比较短,是从20世纪60年代末期到

文档评论(0)

挺进公司 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档