大规模数据库数据挖掘系统概述.docVIP

下载本文档

0
0
约3.13千字
约 7页
2018-09-01 发布于福建
举报
版权申诉

大规模数据库数据挖掘系统概述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模数据库数据挖掘系统概述

大规模数据库数据挖掘系统概述　　摘要：随着信息技术的发展，数据库技术已经从最初的文件处理演变成一个复杂而且强大的数据库系统。如何更快、更好的提取有用的信息是大数据领域的重要研究课题。本文探讨了大规模数据库的数据挖掘系统的构建。构建数据挖掘系统可以进一步探讨基于大数据的数据库的功能，并且有利于决策者能够快速、准确地找到有用的资料。从而根据这些数据能做出最合理、有效的决策。　　关键词：大数据；数据挖掘；决策　　1 数据挖掘技术　　1.1 数据库的数据挖掘系统　　数据库的挖掘在广义上是数据挖掘过程中从存储在数据库中的大量数据中挖掘出有用的信息。从这个角度看，数据库挖掘系统包括以下几个部分。　　（1）数据库：数据库可以恢复信息，它可以整理数据库中的数据；　　（2）数据仓库服务器：根据用户的数据挖掘需求，提取相关数据的数据仓库服务器；　　（3）知识库：它是一种领域知识用来评估结果的有趣程度模式或指导研究。这种知识库的概念是有层次的，包括了解用户的认可；　　（4）数据挖掘引擎：这是数据挖掘的重要组成部分，它是由一组功能模块的组合，用来进行描述，分类，转换和偏差分析等；　　（5）数据评价模块：它通常是由有趣度去衡量，并且能够与数据挖掘模块进行交互，使得搜索专注于有趣程度的模型；　　（6）图形用户界面：用户和数据挖掘系统在这个模块之间的通信，这使得系统与用户进行交互，并且为数据搜索，提供信息，帮助搜索聚焦，和探索性数据挖掘。　　1.2 数据挖掘系统的功能　　1.2.1 清洗泛化　　数据挖掘系统可以把现有的数据提高到一个更高的水平。利用GDBR广义积分算法，通过空间和时间上的复杂性的相关性，然后采用N-gram方法可以有效地搜索和准确的重复记录系统中的相似信息，然后进行排序和测试。智能化操作，如规范的插入，删除，交换和置换可以处理常见的拼写错误，数据清洗。但也有一些偏差，采用精度检测正常消除基本算法，本系统提高了基本消除算法，利用统计原理，结合合理的直接和逆重复矩阵，能够提高拼写错误的检测和正确的修改。　　1.2.2 数据挖掘的功能　　根据相关的关联规则和序列规则，系统的分类以及数据聚集的数据挖掘方法，实现了数据挖掘系统的预期的应用目标。通过搜索与集成的频繁项目集之间的数据实现Apriori算法。频繁项集产生关联规则的基本思想是：通过记录I的频繁项，并记录下I所有非空子集内容。如果值的支持（I）/支持（a）大于最小置信度，规则= （1-a）将直接输出。如果I中的非空子集不符合条件，相关规则将不输出。换句话说，关联规则不是由a形成的，但时间序列规则往往与系统中的项目集的时间相关联。该系统中的时间序列规则是由AprionAII决定的。在广泛的意义上说，关联规则包含强烈规则，例外规则和随机规则。　　规则的少量数据服从的例外规则的代表。虽然数量少，其有趣性高。它是未知的信息在这个阶段的和不可预知的信息规则。该系统中的最小可信度的关联规则设置了例外。因此，系统可以形成分类关联规则（CAR）和分类关联规则（ECAR）和虚假的规则（SCAR）。　　这些定义数据和分类数据，代表可以形成的数据类别，并根据分类标准中属于未知类别的数据来形成分类。在这个系统中，应用区间分类器可以提高正确率和分类精度水平、降低过深树扩展的决策树分类器。　　聚类算法结合高密度集群采用CURE算法进行标记的许多不同的簇代表点。所以能够形成一定的集群分布式架构。然后有效地识别特殊的形态，使数据处理更高效和提高处理能力。利用数据挖掘之前，系统会自动划分空间分布，使信息对象形成了许多数据单元。然后，根据本单位的特点，计算机集群分布。另一个独特的聚类算法是基于密度的聚类算法。通过改进Dbscan算法，数据部门可以实现由小部门集群，实现和算法的加速速度通过选择代表扩大种子点的相邻对象，和整个数据库集群实现样本数据的聚类。它使系统的聚类算法更有效。　　2 基于大规模数据库的数据挖掘系统的构建方法　　2.1 整体框架结构的设置　　该系统集成了各种模块密切相关，形成数据结构层次，包括多个独特的输出操作功能，具有多数据源、多参数的特点。因此，每个挖掘操作模块之间的可以是相互独立的，这可以产生更多的功能和更稳定的系统。作为一个集成系统，有一个协调统一的模块进行模块之间的关联，从而提高并实现数据的传递、标准化系统的操作和数据源的挖掘结果。　　在数据挖掘系统的基础上考虑一个庞大的数据库，本系统的数据挖掘的范围必须要扩大，因此实现挖掘对象不应该仅存在于数据库中，也应该在文件中。因此，根据文件系统提供的信息处理方法。呈现更容易挖掘结果，实现远程决策支持分析，该系统还具有自动恢复的功能挖掘结果，扩大应用范围。因为它是操作电