一种基于全局频繁模式数据挖掘算法及系统实现-data mine algorithm and system implementation based on global frequent pattern.docxVIP

下载本文档

3
0
约4.41万字
约 63页
2018-06-03 发布于上海
举报
版权申诉

一种基于全局频繁模式数据挖掘算法及系统实现-data mine algorithm and system implementation based on global frequent pattern.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于全局频繁模式数据挖掘算法及系统实现-data mine algorithm and system implementation based on global frequent pattern

1绪论1.1课题研究背景近年来随着计算机硬、软件性能的提升，各行业的数据维护可以得到更好的平台保障。然而，大量的数据呈指数激增，数据产生的数量之大、速度之快使得单纯以传统方式提高硬、软件性能的解决思路失去了实际意义。例如，在传感器网络[1]、网页日志[2]、计算机网络传输[3]、金融信息监控[4]、商务交易分析[5]等方面，针对数据集的存储、查询、挖掘变得更为复杂且极具挑战性。奔流不息的流数据对于传统相对静态的数据而言，主要区别在于数据到达的连续性和无限性，以及其未知内在关联的有序性。流数据产生的特性决定了处理流数据的方法也异于传统的静态处理方式，其主要表现在以下几个方面[6]：(1)动态处理。以往静态数据存储在磁盘介质中，参与分析的数据范围已限定，而流数据的无限性决定了分析方法和产生途径的速率必须匹配，动态分析可以解决数据存储空间的问题。(2)定序分析。流数据按照一定顺序实时到达，相应的分析方法应与之同步。这种顺序性淘汰了传统的多遍过滤数据的方式，必须在一遍扫描后进行分析和提取有用信息。(3)实时响应。数据流的到达速度都是快速的，所以需要采用实时动态的接收机制。而静态数据存储在固定介质中，其处理时间相对灵活。(4)近似查询。“水滴石穿”体现了持续不断的强大力量，数据流的持续性造成了数据量之大，如果用有限的资源来处理近乎无穷的数据是不现实的，也得不偿失。最佳的方式是提取样本，采用近似查询的方式，将查询结果控制在较高的近似度中，从而保证数据结果的正确性和可参照性。频繁模式挖掘[7,8]在流数据研究中属于研究难度较大的课题之一，其对数据流的相关应用提供了必要的决策支持。数据流的连续性和无限性引导着频繁模式挖掘技术应该把着眼点放在应用的实际需求中[9]。比如，人们日常生活中涉及到的数据大部分是近期数据，所以对于近期数据的分析应该成为主要的关注点。随着信息量的增加，人们整合分布式环境中各站点的计算能力，最大限度的利用资源供数据分析成为了主流方案。这种新的计算平台赋予了频繁模式挖掘新的特点，如何减小候选项、如何减少通信量以降低网络通信开销等等都是必须考虑的问题。围绕分布式环境下数据流全局频繁模式挖掘的研究正在如火如荼的进行中，数据取样策略、控制临时数据的内存开销、为了保证全局性而精简多站点间互通的数据信息等方面都是需要不断进行优化。本课题的目的是在分布式的环境下研究频繁模式的挖掘，在保证较高正确近似度的前提下，减少开销、提高挖掘效率。1.2多源数据流全局频繁模式挖掘的特点目前，基于数据流模型的挖掘技术得到了广泛研究，其主要研究方向包括三大类：数据概要生成算法、数据流管理系统的应用和数据流挖掘算法。其中，数据流挖掘算法主要包括数据流分类、聚类、频繁模式挖掘等。频繁模式挖掘作为数据流研究领域的一个分支，具有自身的技术特点和难点，而在分布式环境中进行的频繁模式挖掘又具有新的特性。1.2.1单数据流频繁模式挖掘的特点针对数据流频繁模式挖掘的要求让传统方式退出了历史舞台，以往有关数据挖掘的算法处理大多是静态数据，即便出现了有关增量数据处理[10]的算法，其处理的数据对象仍旧局限于离线数据的程度。为了应付流数据连续、高速、实时、无限等特性，针对数据流频繁度的挖掘就必须具备以下特点[11]：(1)实时数据响应。包括两方面的考虑：一个是数据到达的实时响应，当流数据到达后，能够及时接收数据，并通过挖掘算法处理及时数据。另一个是输出结果的实时响应，当用户请求查询挖掘结果时，能够立即输出当前状态的分析结果。每个时间点所提供的结果不尽相同，但都是当前数据状态的直接反馈。(2)低空间复杂度。受到存储介质容量的有限性制约，不可能对所有数据进行保存。那么，保持空间复杂度量级处于低水平显得尤为必要。而空间的利用情况直接关系到挖掘结果的精确度，间接影响着挖掘的时间复杂度。(3)提供近似结果。为了保证空间复杂度的低量级对流数据进行单遍扫描后，仅在内存中保留一部分概要数据，基于概要输出的结果是对所有过滤后的数据频繁特性的一个近似概括。(4)自适应性。针对不同类别的流数据，需要设定的参数也不尽相同。在目前比较普及的传感器或PDA的应用中，根据外部设置的参数可动态调整挖掘状态，这种特性具有高灵活度和实用性。1.2.2多源数据流频繁模式挖掘特点随着应用需求的不断更新，大多数数据流频繁模式挖掘技术都出现了技术瓶颈。目前的应用需求有以下几方面的特点[12,13]：(1)数据来源广。目前的流数据产生的源头呈现分布式，以往的频繁项挖掘技术已无法应付分布式数据的处理。(2)业务重点明确。人们对于近期数据的关注程度远远高于历史数据，那么挖掘的重心应该转移到新事务上。基于应用的需求，多源数据流频繁模式挖掘主要应在两方面进行优化。一方面是空间开销，要尽量减少挖掘过程中局部候选项的保存量级；另一方