基于神经网络数据挖掘研究.ppt

下载文档 降价啦

7
0
约7.06千字
约 69页
2018-10-23 发布于福建
举报
版权申诉
保障服务

基于神经网络数据挖掘研究.ppt

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于神经网络数据挖掘研究

下面我们调整输入，直接来分析这个因素：为此我通过数据源视图浏览数据，通过透视表来验证一下我们的推断是否正确: 谢谢！ 3 计算隐含层和输出层之间的权值隐含层至输出层之间神经元的连接权值可以用最小二乘法直接计算得到，计算公式如下： 3 反馈网络模型Hopfield网络寻找记忆： 3.1 Hopfield网络网络由初始状态向稳定状态演化的过程。初始输出模式向量单层全互连、权值对称的神经网络。结构： Hopfield网络（HNN）离散型HNN(DHNN)： M-P模型二值神经元连续型HNN(CHNN)：神经元为连续时间输出。设是第s类的记忆样本。为了存储 M个记忆样本，神经元i和神经元j之间的权值wij为若神经元i的输入为ui，输出为，则式中，说明：定义网络的能量函数由某一神经元的状态的变化量引起的E变化量为式中，，。 ?E0，E有界，网络最终可达到一个不随时间变化的稳定状态。稳定性：如果网络从t=0的任一初始状态x(0)开始变化时，存在某一有限时刻t，此后网络状态不再变化，则称网络是稳定的。 3.2 算法步骤：第一步：给神经元的连接权赋值，即存贮记忆样本。第二步：用输入的未知类别的模式设置网络的初始状态。若表示神经元i在t时刻的输出状态，则初始值：第三步：迭代计算至算法收敛。第四步：转到第二步，输入新模式。神经元输出与未知模式匹配最好的记忆样本。 4 数据挖掘技术 4.1 数据挖掘的含义：数据挖掘，又称数据库中的知识发现，就是从大量数据中获取有效、新颖、潜在有用、最终可理解的模式的非平凡过程。简单地说，数据挖掘就是从海量的数据中挖掘出可能有潜在价值的信息的技术。这些知识是是隐含的，事先未知的潜在的有用的信息。 4.2 数据挖掘的主要功能： ①分类：按照对象的属性、特征，建立不同的组类来描述事物。 ②聚类：识别出分析对象内在的规则，按照这些规则把对象分成若干类。数据挖掘的主要功能： ③关联规则和序列模式：关联是某种事物发生时其他事物会发生的这样一种联系。 ④预测：把握分析对象发展的规律，对未来的趋势做出预见。 ⑤偏差的检测：对分析对象的少数的、极端的特例的描述，揭示内在的原因。 4.3 数据挖掘的处理过程：数据挖掘的过程主要分为5个部分： ①问题的定义 ②数据准备 ③数据整理 ④建立模型 ⑤评价和解释 4.4 现行的数据挖掘方法：统计方法、关联发现、聚类分析、分类与回归和决策树、联机分析处理(OLAP)、查询工具、主管信息系统(EIS)等。这些方法帮助分析包含在数据仓库中的数据，它们的共同特点是问题驱动的。用户必须提出许多问题，才能得到包含在复杂关系中的结果，当提不出问题或提出的问题不正确时，将得不到正确的数据。 5 基于神经网络的数据挖掘研究 5.1 基于神经网络的数据挖掘分三个阶段 ? 选择与预处理数据 ? 网络训练与剪纸 ? 规则提取与评估（1）选择与预处理数据为构造网络准备数据，包括训练数据和测试数据。选择数据之前首先要观察和理解数据，选择一个或几个合适的样本数据集。结合挖掘任务、数据的特点和采用的挖掘方法选择合适的编码（转化）方法（2）网络训练与剪纸这个阶段需要选择拟采用的网络模型，选择或设计一种网络训练算法。训练后的网络可能有些臃肿，剪枝就是在不影响网络准确性的前提下，将网络中冗余的连接和结点去掉。没有冗余结点和连接的网络产生的模式更精练和更易于理解。（3）规则提取与评估经过学习和剪枝之后，网络中蕴含着学习到的规则（知识），但以这种形式存在规则不易理解。规则提取目的就是从网络中提取规则，并转换为某种易理解的形式表达出来，如决策树、模糊逻辑等方法。再利用测试样本对规则的可靠性进行测试和评估。 5.2 适合神经网络的数据挖掘问题：分类是数据挖掘的一个主要问题。单层感知器的线性可分能力早已证明，但是对于非线性可分问题单层网络是无能为力的。可通过加入中间层，引入转换函数，将非分线性可分的问题映射后变为线性可分。一个多层的神经网络具有非常强的分类能力，并且分类误差率较低。聚类是无监督学习过程，它依据数据间的相似度将数据集划分为不同的簇。目的是概观数据的全貌，了解数