基于xml的web数据挖掘优化算法的分析与应用-analysis and application of web data mining optimization algorithm based on xml.docxVIP

  • 3
  • 0
  • 约6.3万字
  • 约 88页
  • 2018-05-18 发布于上海
  • 举报

基于xml的web数据挖掘优化算法的分析与应用-analysis and application of web data mining optimization algorithm based on xml.docx

基于xml的web数据挖掘优化算法的分析与应用-analysis and application of web data mining optimization algorithm based on xml

RESEARCHANDAPPLICATION OF OPTIMIZATIONALGORITHM OFWEBDATA MININGBASED ONXMLAMasterThesisSubmittedtoUniversityof ElectronicScience andTechnologyofChinaMajor:MasterofEngineeringAuthor:ZhangLudanAdvisor:XueRuiniSchool: SchoolofInformationandSoftwareEngineering本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要互联网已经成为现代人不可或缺的获取信息的有效途径和普遍方式,然而在浩瀚如波的互联网海洋想提取所需的信息宛如大海捞针一般,因为数据规模庞大,种类繁多,因此,如何帮助人来在互联网海洋获取有价值的信息成为最有实际意义的研究方向和热门话题。XML已经成为互联网中数据转换的标准。在互联网中有大量XML文档涌现,如何有效及时的管理XML数据和挖掘有用的信息,成为整个互联网产业界关注的热点。本文首先简要地介绍了WEB数据挖掘中构建XML数据存储和查询系统的理论基石,即XML技术、数据挖掘算法等。在此基础上,文章重点分析了经典的APRIORI算法,总结了该算法存在的主要缺点并且提出了可行性的解决方案。一是减少计算候选项集的支持度时数据库元组的个数,提高APRIORI算法生成频繁项集的效率;二是采用压缩规则集、剪枝策略以及优化的APRIORI 关联规则生成方法,目的是缩小生成强关联规则时需要判断的频繁项集的范围。三是为了加快数据之间的查询和存储效率。根据XML查询以路径表达式为主体的特点,提出了一种在关系数据库中存储XML文档的方法,这种方法是基于XPath数据模型的,并对XML 文档的元素进行Dietz编码来标识元素,同时在数据库中存储每个元素及其父元素的Dietz编码来保持元素之间的父子关系以及用于将关系数据转化为XML文档或文档片段。使用该方法我们开发出了一个由存储、转换和查询三个模块组成中间件,分别用来存储XML文档的元素、属性和文本。最后,本文将改进后的APRIORI算法应用于“XML数据存储和查询系统” 中。改进后的APRIORI算法提高了系统的查询速度,且在时间复杂度方面有明显的优势。实验结果表明,改进后的APRIORI算法提高了强关联规则的质量,减少了运算所需要的时间消耗,改进后的APRIORI算法能够更能有效的提高查询和存储数据的效果。关键词:XML,Xpath,APRIORI算法,关联规则,Dietz编码ABSTRACTTheInternethasbecometheeffectivewayofmodernpeopleandgenerally necessarytoobtaininformation,butinthevastseaoftheInternetsuchaswaveto extracttherequiredinformationlikelookforaneedleintheocean,becausethedata size,variety,therefore,how to help people on the Internet is the valuableinformationhas becomethemostmeaningfulresearchdirectionandhottopic.XMLhas becomethestandardofdataconversioninmobileinternet.InthemobileInternethasalotofXMLdocumentmanagementXMLdataemerge,howtoeffectivelyandtimelyandminingusefulinformation,becomethefocusofattentionofthemobileInternet industry.Thispape

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档