不确定性数据中的概率频繁项集挖掘算法地研究.pdfVIP

不确定性数据中的概率频繁项集挖掘算法地研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不确定性数据中的概率频繁项集挖掘算法的研究 4.4.2扩展子集搜索树的建立…………………………………….37 4.4.3深度优先遍历挖掘概率频繁模式………………………….38 4.5扩展动态计算模式…………………………………………………..39 4.6 UPC.Eclat相关算法………………………………………………….4】 4.6.1UPC—Eclat算法………………………………………………,.41 4.6.2不确定性数据集读取和转换………一………………………..42 4.6.3内存映射文件…………………………………………………44 4.7本章小结………………………………………………………………………………….45 第五章实验……………………………………………………………………46 5.】实验环境……………………………………………………………,.46 5.2实验数据……………………………………………………………..46 5.3实验方法……………………………………………………………..47 5.4实验结果分析………………………………………………………..47 5.5实验总结…………………………………………………………………………………51 第六章总结与展望……………………………………………………………52 参考文献……………………………………………………………………….54 攻读学位期间作者的研究成果……………………………………………….57 致谢………………………………………………………………………………………………………58 4 万方数据 不确定性数据中的概率频繁项集挖掘算法的研究 摘要 频繁模式的挖掘一直是数据挖掘中的重要研究领域之一。随着计算机软硬件 的发展,传统I:即勺确定性数据可能存在缺失、出现噪声值,从而产生大量不确定 性数据,如传感器、卫星图像信息、医院病人的诊断数据等。由于存在不确定性 数据,传统确定性数据中频繁模式挖掘算法并不适用。 本文以不确定性数据的频繁模式的挖掘算法作为研究对象,总结了目前两种 主要的不确定。眭模型,分别是基于期望支持度和基于概率分布的概率模式两种。 而且在不确定性数据中,基于期望支持度的挖掘算法丢失了项集的概率分布特 征,不能表达频繁模式估计的准确性,因此本文主要采用基于概率分布的频繁模 式表示,在此基础上,提出了不确定性数据频繁模式的垂直挖掘算法。 本文的主要研究成果有: ◇对目前典型的不确定性数据频繁模式挖掘算法进行研究和总结,归纳出 不确定性数据中的频繁模式挖掘的算法的一般特点。 ◇由于项集的支持度是不确定性的,使用期望支持度的频繁模式不能说明 估计项集频繁的准确性,因而采用引入置信度的频繁模式模型;通过理 论分析证明,该模型相较期望支持度的模型更能准确地估计频繁模式。 ◇提出了一种基于扩展方法的不确定性数据概率频繁模式垂直挖掘算法 UPC—Eclat。该算法对Tidset进行扩展,递归建立子集搜索树,通过深度 优先遍历搜索树来挖掘概率频繁模式。并且利用扩展动态计算模式优化 项集的频繁概率计算过程,从而挖掘出用户自定义置信度和最小支持度 下的频繁模式。 分析了最小支持度和最小置信度对两种基于置信度的频繁模式挖掘算法 PFIM算法和UPC—Eclat算法进行分析比较,通过实验证明,本文提出的 算法UPC—Eclat算法相较于水平挖掘算法PFIM算法更加有效省时。 关键词:不确定性数据,概率频繁模式,数据挖掘,垂南挖掘,置信度 中图分类号:TP39

文档评论(0)

llllss930 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档