- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种自适应的混沌粒子群算法优化XML 数据聚类策略1
1 1 2 3
刘波 ,杨路明 ,翟学敏 ,邓云龙
1 中南大学信息学院,长沙 (410083 )
2 江南大学,江苏无锡(214122 )
3 中南大学湘雅附三医院,长沙(410013)
E-mail :ltbo99@,l-tb@163.com
摘 要:针对海量XML文档数据挖掘进行聚类划分效率低的不足,本文尝试对XML数据聚类
方法进行优化。通过说明XML键及其聚类定义,结合混沌运动的特点融入一种新的基于混
沌思想的粒子群优化算法,该算法以XML键为粒度利用混沌原理划分XML聚类时,通过提
高自身聚类学习能力,增强对XML数据的全局寻优能力,改善聚类的收敛性;同时通过对
权重因子的自适应地调整,更减少搜索局限及计算成本。实验仿真表明,此算法不仅很大程
度上避免了聚类过程停滞现象的发生,而且是一种有效的优化聚类方法。
关键词:XML数据库,XML键,混沌优化算法,自适应,粒子群优化算法
中图分类号:TP301 文献识别码:A
0. 引言
随着互联网技术发展,XML作为一种具有灵活、开放、跨平台、跨语种等特点的文本标
记描述语言被广泛用于信息的表达及交换, 由此产生了海量XML文档,需要对这些文档进行
查询、挖掘,提取有价值的信息,聚类是XML数据挖掘中的一种重要的分析手段,可以将
数据对象归入到相应有意义的聚类中。对于XML数据的聚类管理,XML文档本身的标签以
及路径约束使其具有传统文档所没有的结构和层次特性,考虑到XML 的结构信息,文献[1]利
用相似路径进行XML聚类操作,通过对XML路径查询分类处理降低查询过程的IO页面处理,
文献[2]则根据XML架构语义,结合路径相似性与路径权重系数进行XML文档聚类操作,这些
都离不开对XML树进行相似性度量,其缺点是时间复杂度过高,一般为O(n 3 ) ,不适合多文档
集处理;文献[3]则从XML文档结构入手,通过分析有序标签树结构、路径权重,利用各种
树编辑距离理论提出树结构距离算法,降低XML嵌套层次,有利XML树间的匹配,但效果仍不
甚理想,主要原因在于单纯的树“编辑距离”仅适合文档两两比较, 缺乏类原形描述与操作记
忆力,针对以上方法的不足,本文尝试利用XML键与混沌原理、结合粒子群的有效记忆性探讨
对XML文档进行自学习的聚类算法,希望有助于降低聚类过程中的计算规模。
该算法的主要过程是首先利用XML键及其约束条件求解XML文档集中的候选键信息,并
组成有效的XML键组合,消除非关键信息造成的影响,然后以XML键组合信息为粒度, 以类间
距离大小为判断准则,利用粒子群算法寻找代价相似的XML文档集,再利用基于权重代价的
XML文档相似性算法依次收集XML文档作为聚类结果,这一点与混沌原理的粗搜与细搜过
程相似,而基于粒子群算法的聚类方法是以个体之间的协作和群体信息共享的基本模型为基
础提出的一种自适应聚类结果 [4-5],这一特点与聚类过程中无须用户提供先验的分类知识,而
是根据数据实际的分布情况得到自然的聚集结果相吻合。
作为进化计算的研究热点之一, 目前已提出了多种改进PSO算法[6-8],但是这些算法大多着
眼于PSO 的参数选择或某个参数的动态修改策略,很少涉及其针对XML文档操作方面的应用
1本课题是湖南信息职业学院科技创新项目(编号108652006011,名称:基于XML 数据库压缩算法与概率
查询分析及实现),同时本课题获得湖南省教育厅科研基金(编号05c671,名称:遗传算法参数设计)的
资助。
- 1 -
与改进,为此本文以XML键为粒度,结合混沌原理, 提出针对XML文档一种自适应的混沌粒
子群算法(ACPSO)聚类检测方法,为使ACPSO算法摆脱局部极小,提出粒子
您可能关注的文档
最近下载
- 2009石油化工行业检修工程动工预算定额说明.docx
- YB∕T6294-2024 锌铝合金镀层弹簧钢丝(报批稿).pdf VIP
- TSGZ6001—2019特种设备作业人员考核规则正文.pdf VIP
- 新湘教版七年级数学上册全册导学案.pdf VIP
- 2025年内蒙古自治区呼和浩特市初一新生入学分班考试真题含答案.docx VIP
- 2025年西藏高考理综真题试卷及答案.docx VIP
- 部编人教版一年级数学上册全册教案.docx VIP
- 超市经营服务方案.docx VIP
- 腐蚀数据与选材手册-校对版.xls VIP
- 六年级下册语文试卷-《金色的鱼钩》一课一练(含答案)人教部编版.pdf VIP
文档评论(0)