流数据查询系统结构及模式查询算法的研究-控制理论与控制工程专业论文.docx

流数据查询系统结构及模式查询算法的研究-控制理论与控制工程专业论文.docx

东华人学博l:论文·流数据杏瓠系统结构及模式查询算法的研究摘要 东华人学博l:论文·流数据杏瓠系统结构及模式查询算法的研究 摘要 当前许多应用需要支持对快边改变的流数据的在线分析查询处理。传统的数据 库竹列系统和数据查询算法/fi能很好地支拍对流数据的查询已经被广泛认识,因而 需要设计新的流数据查淘铃理系统和研究新的流数据模式查询算法。 认识到基于Web服务的方法l】丁能成为电了商务和信息技术的基础设施,本文首 先提出了构造基于Web服务的分布式流数据查询系统。该系统以建立在标准的Web 服务技术之上的WSRF规范为基础。其次,本文的另一项工作是流数据中的模式查 询算法的研究。对查询算法的研究,丰要集中于流数据的相似性查询和流数据聚类 算法研究。 本文的主要研究工作包括以下五个方面内容: 第一,提出了基于Web服务资源框架的流数据查询处理结构.许多当前出现的 应用需要支持在线快速改变的流数据的分析处理,同时基于服务的方法在当前电子 商务和电子科学领域开发分布式应用时受到广泛关注。因此,本文提出了解决分布 式流数据查询的普遍框架,该框架构架于Web服务技术之上,遵守Web服务资源框 架。这种分布式基于服务的结构增加了查询系统的可移植性,方便了整个系统的维 护,使安装和管理更便捷。同时,这种系统结构把客户端(终端)从系统中分离出 来,允许用户从不同的查询节点移动,共享和访问流数据查询处理系统提供的服务。 第二,提出了基于傅立叶变换(DFlr)聚类方法的流数据相似性搜索算法。本 文提出了先用DFT从时域到频域转换流序列,并用能量最大保持原理提取代表平均 意义下能量最大的特征值,并使用聚类方法减少最终要保留下来的代表性子序列个 数。最后提出了能够发现两个序列之间存在经过时间轴偏移、幅度放大或缩小以及 上升或下降趋势等相似性关系的相似性查询算法。该算法能够处理基于滑动窗口和 无限界标窗口模式下的流序列相似性查询问题。实验结果验证了提出算法的有效性。 第三,提出了一种基于摘要技术的在线快速混合模型流数据聚类算法。该算法 为分阶段混合模型聚类过程。算法首先对最初到达的流数据用多维网格结构进行划 分,对划分形成的每一个单元进行数据摘要,对该摘要运行基于模型的贪心聚类算 法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类 东华大学博士论文‘流数据查询系统结构及模式查询算法的研究混合模型;在聚类模型的维持过程中.当不断有流数据到达时,对到达的数据块, 东华大学博士论文‘流数据查询系统结构及模式查询算法的研究 混合模型;在聚类模型的维持过程中.当不断有流数据到达时,对到达的数据块, 对划分形成的每一个单元提取摘要信息并运行基于模型的贪心聚类算法形成聚类混 合模型;在判断是否可以合并新到达的模型到现有的混合模型中去时,使用了二种 合并标准:基于假设检验的合并模型标准。基于Mahalanobis跑离的合并模型标准 和耩于似然估计距离的合并模型标准。当不能合并到初始聚类混合模型中时,则建 立新的模型,并把该新建的模型和已有的聚类混会模型合并,形成新的聚类混合模 型。实验验证了算法比传统的基于模型的贪心聚类算法,既提高了聚类的质量,减 少了分类误差,同时比传统的基于模型的贪心聚类算法速度大大加快。 第四,提出了用快速模糊ARTMAP神经网络动态挖掘Web新闻流中的模式的 算法。鉴于目前因特网上Web新闻服务广为盛行,本文提出了从Web新闻文本中挖 掘分级的模式的算法。本文提出了一种快速模糊ARTMAP神经网络算法。在该算法 中,主要提出了新的匹配函数和激励函数,这两个函数使得算法既简化了计算,又 容易理解算法的内在机理。该算法的革新之处在于既能动态地维持聚类的簇结构同 时又减少了算法的复杂性。实验结果证实了该算法在合理的时间内产生了高质量的 模式发现。 第五,提出了用分裂一凝聚聚类方法从Web新闻中提取分级的模式的算法。针 对快速模糊ARTMAP神经网络算法对警戒系数的设置比较敏感的阎题:太低的警戒 值产生很少的簇,太高的警戒值产生很多的簇.本文提出用分裂—凝聚的聚类方法 从Web新闻中提取分级的模式的算法。此主题挖掘算法的革新之处在于在减少计算 量的同时动态增量维持簇结构,从而实现从Web新闻中发现有意义的新闻主题。同 时,该算法还利用不断到达新闻流的最近邻信息,使得聚类算法能够发现具有不同 形状和不同密度的簇。实验结果显示提出的聚类算法实现了高质量的主题发现。 关键词胃eb服务资源框架流数据最近邻相似性查询混合模型聚类 模式 V 东华大学博士论文·流数据查询系统结构及模式查询算江的研究Abstract 东华大学博士论文·流数据查询系统结构及模式查询算江的研究 Abstract Many current and emerging a

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档