【2018年最新整理】知识挖掘及分析评估研究报告.docxVIP

下载本文档

0
0
约2.24万字
约 51页
2018-03-13 发布于浙江
举报
版权申诉

【2018年最新整理】知识挖掘及分析评估研究报告.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【2018年最新整理】知识挖掘及分析评估研究报告

目录第一章绪论11.1研究背景及研究的意义11.2国内外研究的现状31.3知识挖掘内容简介41.3.1知识挖掘的目标41.2.2知识挖掘的处理过程6第二章知识挖掘的主要研究方法92.1统计分析方法92.2机器学习112.3可视化14第三章知识挖掘中常用算法简介163.1 C4.5 算法163.1.1 C4.5算法简介163.1.2 C4.5算法原理173.2 支持向量机193.2.1 支持向量机算法简介193.2.2支持向量机原理203.3 K-Means算法243.4 Apriori 算法253.5 kNN算法263.6 分类模型28第四章经典知识挖掘模型举例304.1商业银行客户管理系统知识挖掘模型304.1.1 系统总体设计304.1.2 数据预处理的实现314.1.3 数据挖掘的实现324.2 教学评价系统知识挖掘模型354.2.1 系统总体设计354.2.2 构造决策树364.2.3 数据预处理394.2.4 决策树剪枝41第五章基于知识挖掘的分析评估研究445.1 挖掘模型的评估与应用445.2 基于知识挖掘的分析评估框架455.3 分析评估的主要方法465.3.1 保持方法465.3.2 随机二次抽样465.3.3 交叉验证475.3.4 自助法47第一章绪论1.1研究背景及研究的意义全球范围内数据库中存储的数据量正急剧增加,数据库系统提供了对这些数据的管理和简单处理能力，人们可以利用这些数据进行商业分析和科学研究。面对如此庞大的数据库人们的需求已经不只是简单的查询和维护，而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和对发展趋势的预测。而这些功能是数据库技术、人工智能和统计学等无法单独完成的。“我们淹没在信息之中，但仍于知识的饥渴中”Johe Naisbett说。由此，知识挖掘技术便应用而生。知识挖掘的定义几经变动，最新的描述性定义是由Usama M.Fayyyad等给出的：知识挖掘是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。数据是指有关事实的集合,记录和事物有关的原始信息。模式是一个用语言来表示的一个表达式，它可用来描述数据集的某个子集，我们所说的知识，是对数据包涵的信息更抽象的描述。对大量数据进行分析的过程，包括数据准备、模式搜索、知识评价，以及反复的修改求精；该过程要求是非平凡的，意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用，如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解，目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为兴趣性。　由于数据挖掘是一门新兴学科，况且它又是一门受到来自各种不同领域的研究者关注的边缘学科，因此产生很多不同的术语，除了称为“知识挖掘”外，主要还有如下若干种称法：“ 数据发现”、“数据开采”、“知识抽取”、“信息发现”、“知识发现”、“智能数据分析”、“探索式数据分析”、“信息收获”和“数据考古”等等。“数据挖掘”被许多研究者看作仅是数据发现的一个步骤。相对来讲，数据开采主要流行于统计界、数据分析、数据库和管理信息系统(MIS)界；而数据发现则主要流行于人工智能和机器学习界。　知识挖掘虽然只有十年的历史，但它已被越来越多的领域所采用,并取得了较好效果。这些领域有科学研究、市场营销、金融投资、欺诈甄别、产品制造、通信网络管理等。由加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT(Sky Image Cataloging and Analys is Tool)是第一个获得相当成功的数据挖掘应用，已经帮助科学家发现了16颗极其遥远的类星体。虽然知识挖掘已经受到许多关注并取得了广泛应用，但它仍处于发展的早期，还有很多研究难题和面临的挑战，如数据的巨量性、动态性、噪声性、缺值和稀疏性，发现模式的可理解性、兴趣或价值性，应用系统的集成，用户的交互操作，知识的更新管理，复杂数据库的处理等等。1.2国内外研究的现状知识挖掘的设想始于20世纪80年代末,当时,出现了从数据源中发掘新信息模式及算法的设计,被称为数据库中的知识发现KDD。2001年,Gartneroroup的一次高级技术调查将数据挖掘和人工智能列为未来三到五年内将对工业产生深远影响的五大关键技术之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位知识挖掘,顾名思义是把深埋着的知识开采出来,它包括两方面:(l)从已编码的信息即从数据库、数据仓库中发现新的知识,称数据挖掘(DataMining);(