- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
东华大学博!:fie文流数捌硷脚系统结构发模式查询算法的研究
摘要
当前许多应用需要支持列快速改变的流数=|jIi钎内在线分析查询处理。传统的数据
库钙‘弹系统和数据查询算法不能很好地支持刈流数据的查询已经被广泛认识,凶丽
需要设计新的流数据查询1≈:理系统和研究新的流数据模式查稠算法。
认识到基于Web服务的方法可能成为电了商务和信息技术的基础设施,本文首
先提出了构造基于Web服务的分布式流数据查淘系统。该系统以建立在标准的Web
服务技术之上的WSRF规范为基础。其次,本文的另‘项工作是流数据中的模式查
询算法的研究。对查询算法的研究,丰要集中于流数据的相似性查询和流数据聚类
算法研究。
本文的主要研究工作包括阱下五个方面内容:
第一,提出了基于Web服务资源框架的流数据查询处理结构。许多当前出现的
应用需要支持在线快速改变的流数据的分析处理,同时基于服务的方法在当前电予
商务和电子科学领域开发分布式应用时受到广泛关注。因此,本文提出了解决分布
式流数据查询的普遍框架,该框架构架于Web服务技术之上,遵守Web服务资源框
架。这种分布式基于服务的结构增加了查淘系统的可移植性,方便了整个系统的维
护,使安装和管理更便捷。同时,这种系统结构把客户端(终端)从系统中分离出
来,允许用户从不同的查询节点移动,共享和访问流数据查询处理系统提供的服务。
第二,提出了基于傅立叶变换(DFT)聚类方法的流数据相似性搜索算法。本
文提出了先用DFT从时域到频域转换流序列,并用能量最大保持原理提取代表平均
意义下能量最大的特征值,并使用聚类方法减少最终要保留下来的代表性子序列个
数。最后提出了能够发现两个序列之间存在经过时间轴偏移、幅度放大或缩小以及
上升或下降趋势等相似性关系的相似性查询算法。该算法能够处理基于滑动窗口和
无限界标窗口模式下的流序列相似性查询问题。实验结果验证了提出算法的有效性。
第三,提出了一种基于摘要技术的在线快速混合模型流数据聚类算法。该算法
为分阶段混合模型聚类过程。算法首先对最初到达的流数据用多维网格结构进行划
分,对划分形成的每一个荦元进行数据摘要,列该摘要运行基于模型的贪心聚类算
法,聚类形成的混合模型的摘要信息存储在永久摘要数据库中,从而形成初始聚类
东华大学博士论文‘流数据查询系统结构及模式查询算法的研究
混合模型;在聚类模型的维持过程中,当不断有流数据到达时,对到达的数据块,
对划分形成的每一个单元提取摘要信息并运行基于模型的贪心聚类算法形成聚类混
合模型;在判断是否可以台并新到达的模型到现有的混台模型中去时,使用了三利,
合){:标准:摹于假设检验的合并模型标准,基于Mahalanobis距离的合并模型标准
耳¨基于似然估计距离的合并模型标准。当不能合并到初始聚类混合模型中时,则建
立新的模型,并把该新建的模型和已有的聚类混合模型合并,形成新的聚类泥合模
型。实验验证了算法比传统的摹于模型的贪心聚类算法,既提高了聚类的质量,减
少了分类误差,同时比传统的基于模型的贪心聚类算法速度大大加快。
第四,提出了用快速模糊ARTMAP神经网络动态挖掘Web新闻流中的模式的
算法。鉴于目前因特网上Web新闻服务广为盛行,本文提出了从Web新闻文本中挖
掘分级的模式的算法。本文提出了一种快速模糊ARTMAP神经网络算法。在该算法
中,主要提出了新的匹配函数和激励函数,这两个函数使得算法既简化了计算,又
容易理解算法的内在机理。该算法的革新之处在于既能动态地维持聚类的簇结构同
时又减少了算法的复杂性。实验结果证实了该算法在合理的时问内产生了高质量的
模式发现。
第五,提出了用分裂一凝聚聚类方法从Web新闻中提取分级的模式的算法。针
对快速模糊ARTMAP神经网络算法对警戒系数的设置比较敏感的问题:太低的警戒
值产生很少的簇,太高的警戒值产生很多的簇。本文提出用分裂—凝聚的聚类方法
从Web瓤闻中提取分级的模式的算法。此主题挖掘算法的革新之处在于在减少计算
量的同时动态增量维持簇结构,从而实现从Web新闻中发现有意义的新闻主题。同
时,该算法还利用不断到达新闻流的最近邻信息,使得聚类算法能够发现具有不同
形状和不同密度的簇。实验结果显示提出的聚类算法实现了高质量的主题发现。
关键词Web服务资源框架流数据最近邻相似性查询混合模型聚类模式
V
文档评论(0)