第9章1 知识工程和数据挖掘.pptVIP

下载本文档

12
0
约7.98千字
约 78页
2018-05-13 发布于四川
举报
版权申诉

第9章1 知识工程和数据挖掘.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

另一种改善性能的方法：增加输入变量的个数。（t-5）、（t-4）、（t-3）、（t-2）、（t-1）、t时的位置。六个输入，每个输入都指定两个隶属函数 9.7数据挖掘和知识发现数据挖掘：数据是我们收集和存储的，知识是帮助我们做决策的。从数据中提取知识称为数据挖掘。也可以称为在大量数据中进行探索和分析，以便发现有意义的模式和规则。数据发掘的最终目标是发现知识。数据仓库：主要特征是容量。存储数据仓库中的数据记录是与时间相关的，所有的数据按照时间排列。数据也是整合的，操作中所有的相关信息相互融合构成了数据仓库。查询工具和数据挖掘区别：查询工具基于用户的假设---用户必须询问正确的问题。而数据挖掘工具，不需要假设数据集中变量之间的相互关系，就可以确定影响结果的最重要的因素。数据挖掘的应用：银行、金融、营销和电信有了大量的应用。还有直销、趋势分析和欺诈识别等。挖掘数据:通常使用用户驱动的技术分析数据，这时用户明确作出假设，然后用数据和测试证明这个假设。现实中，数据仓库中包含变量很多，这些变量中关系非常复杂。使用统计方法来理解这些数据：统计可以收集、组织和利用数值数据的科学。但是它不能解决数据挖掘的问题，例如，在大量数据中发现有意义的模式和规则。数据发掘工具：通常使用神经网络和神经模糊系统。但是数据挖掘最常见的工具是决策树。决策树：定义为推理过程的图。它可以通过树形结构来表述数据集。决策树特别适合解决分类问题。下面是一个发现对新的消费品的宣传感兴趣的家庭的决策树。每个节点包含该节点上数据记录总数的信息，也包含因变量取值的分布信息。因变量：它是用户选择的。决定研究的目标。本例中，Household被设置成因变量，取值可以是responded或not responded两种数据分割：数据的拆分。基尼系数：是评价预测器分割亲代节点中所包含的类的好坏的一种度量方法。 Corrado Gini是意大利的经济学家，他提出了一种衡量一个国家收入分配不均等数量的大致方法。下图中对角线和财富绝对均等分配相对应。基尼系数就是用曲线和对角线之间的面积除以对角线下方的总面积得到的。均等的话系数为0，一个人拥有全部财富的话，系数为1. 基尼系数表示图 a)是基尼选择分割。b)是经验选择分割。案例10：数据挖掘决策树问题：知道哪些人患有高血压的风险条件：一份公众健康调查的结果。决策树特点：和神经网络和模糊系统不同，决策树不能处理有噪音和被污染的数据。数据挖掘之前必须保证数据时干净的。本例中120/80是理想血压；120/80和130/85是常规血压，140/90以上指高血压。年龄来分隔进行创建决策树的下一层可以研究某个分割。决策树优缺点： 1）优点：结果可视化，容易跟踪某条路径。发现的关系可以用一系列规则表示，这些规则可用于开发专家系统。 2）缺点：联系数据必须按范围分组，这就可能隐藏重要模式。另一个处理缺失和不一致的数据---必须用“干净”的数据才能得到可靠的结论。最重要的限制是每次处理的变量不能超过一个。仅能解决那些可以将空间分割成几个连续矩形的问题。如图表示： “完美”和“噪音”实例训练分析实验结果分析 20个隐含神经元网络平均误差很低，但结果并没比10个的有明显的差异。所以，这里10个比较好用“噪音”样例训练出来的明显要比“完美”样例性能大大改善。案例5：预测神经网络问题：房地产评估分析：此问题就是一个根据类似住房的销售价格的知识预测给定房产的市场价。训练集：网络的推广力取决于训练集大小、网络架构和问题的复杂性。训练集大小（Widrow的经验估计） N 是训练集例子数量网络中突触权重数量 e 是测试允许的网络误差数据的处理由于要融合不同类型的特征，而所有输入输出都在统一的数据情况下，神经网络的性能很好。如何修改数据：类型：连续数据、离散数据、分类数据。连续数据：离散数据: 如果值超过一打，就可以按连续的处理数据的处理分类数据：1/N编码来修改。例如：婚姻状况有单身、离异、已婚和鳏寡。每个取值非0即1.已婚的人表示为：0010. 如何验证结果训练前，将所有可用的数据随机分成训练集和测试集。灵敏度分析：由于神经元的非线性特征会阻止网络产生简单和可以理解的规则。而还要理解某个输入对输出的重要性。作用：还可以确定模型的输出对输入的敏感程度。可以理解不透明模式内部的关系。操作：先输入最小值然后最大值，测输出案例6：具有竞争学习的分类神经网络问题：开发一个智能系统，可以将鸢尾植物分类，并能够制定任意一种鸢尾植属植物的类别。条件：现有一个多个变量的数据集，但不知将其如何分类，因为没有找到数据独一或独一无二的特征。竞争