- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则挖掘的取样复杂性分析:
关联规则挖掘的取样复杂性分析: 摘要
摘要
随着网络技术、存贮器技术和处理器技术的提高,整个世界的信息总量正以惊人的 速度急剧膨胀,从事数据分析和处理的数据挖掘专家们所面对和处理的数据库或数据仓 库的规模也随之不断增长。现有的数据挖掘算法在性能上难以满足处理海量数据库或数 据仓库的要求。人们陷入了“数据越来越丰富但知识越来越缺乏”的困境。
关联规则挖掘作为数据挖掘的核心任务之一,由于其任务本身的复杂性,使得从原 始的大规模数据集中抽取-d,部分样本,在样本集上寻找用户感兴趣的近似模式或规则 的取样方法成为目前提高算法效率和可扩展性的一种简单、有效的现实可行方法。但是, 取样方法必须在算法的效率和结果的精确性之间进行很好的折衷,如何确定合适的样本 大小使得运行于样本集上的算法达到足够的精确性要求,即“关联规则挖掘的取样复杂 性”的确定成为使用这一方法必须面对的关键、难解问题。
本文主要针对“关联规则挖掘的取样复杂性”的确定这一难解问题,对与之相关的 几个亟需解决的重要问题进行分析和研究。包括取样误差的量化模型和快速估计算法; 提高取样精确性的方法;确定取样复杂性的新途径;关联规则挖掘取样复杂性PAC (Probably Approximate Correct)理论的本质;PAC理论下的最优取样复杂性:取样复 杂性PAC理论在关联规则挖掘领域的进一步推广;关联规则挖掘取样复杂性研究成果 的现实应用等等。
本文的创新性研究成果主要包括以下几个方面。 1)取样误差量化模型和快速估计算法:给出了一种有效的取样误差量化模型:取
样误差量化三元组模型:给出了确定主误差产生范围的阈值松驰定理,并利用闽值松驰
定理给出了一种主误差的快速估计算法:主误差区间估计法。实验结果表明,取样误差 量化三元组模型可以灵活、有效地度量出由于取样所产生的误差。主误差区间估计法在 取样误差的估计上具有快速、精确的优点。这一部分的研究为我们下一步优良的取样方 法的设计和合理的评估样本集上所获结果的精确性奠定了基础。
2)自适应多尺度取样算法:在信号处理中的多分辨分析理论和Shannon取样定理 的启发下,给出了一种根据数据库特性在给定的精确性要求下动态选取样本大小的自适 应、在线、增量式、快速取样方法:多尺度取样方法,并将主误差区间估计法嵌入多尺 度取样算法中。实验结果表明,多尺度取样方法在有限的几步内就可以快速地得到满足 用户给定的精确性要求的样本大小和样本集,并且由于取样误差的主误差近似量化方法 和快速估计方法的嵌入使得本文给出的多尺度取样算法可以克服已有的经典自适应取 样算法(如自适应渐近取样算法)的诸多不足。
3)取样集成模型和理论:首次提出利用取样集成方法提高取样精确性的新思想, 给出了取样集成模型并借助机器学习中的Monte Carlo理论和Bias—variance分解从理论 上分析了模型的有效性;给出了一种解决关联规则挖掘取样复杂性的新方法:自适应取
关联规则挖掘的取样复杂性分析:
关联规则挖掘的取样复杂性分析: 摘要
样集成方法,‘该方法在确定的样本大小上通过增大取样集成规模的方法来提高结果的精 确性,在不需过多考虑样本大小的条件下同样可以得到满足用户给定精确性要求的近似 规则。在标准的人工合成的数据库和真实销售数据库上的实验结果均表明,取样集成模 型确实可以大大减少确定样本大小的样本集上发现的频繁项集与原始数据库中蕴含的 真实频繁项集之间的差异,并且自适应取样集成方法可以快速地得到满足精确性要求的 频繁项集和规则。
4)取样复杂性的PAC理论分析和推广:对关联规则挖掘取样复杂性PAC理论估 计方法的本质进行了分析,指出最坏情形分析下的最优取样复杂性是:中心极限定理下 的取样界,并对其过估计的情况进行了实践检验:将已有的关联规则挖掘的PAC框架 及取样复杂性的结果进行了推广,给出了适于关联规则挖掘的双参数限制(PAC.SC框 架)下的取样定理和主误差限制(PAC—FM框架)下的取样复杂性的分析结果;首次给 出了平均情形下取样复杂性PAC框架的形式化描述,并对其难点进行了分析。
5)解决取样复杂性方法的对比和取样复杂性理论的新的应用:对解决关联规则挖 掘取样复杂性的三种方法:自适应取样方法、自适应取样集成方法、取样复杂性的PAC 理论估计方法进行了对比,指出各自的优点和不足,为具体的现实应用提供了参考依据; 利用阈值松驰定理给出了一种新的分布式关联规则挖掘控制方法,它相对于已有的方法 的优点是通信量或数据库扫描次数少;利用取样集成方法给出了一种获取流数据中蕴含 的高精确性关联规则的方法,它相对于已有的方法的优点是可以减少原有方法可能产生 的大量错误频繁项集。
总的来说,在对关联规则挖掘取样复杂性问题的分析上,我们
您可能关注的文档
- 焓差实验室测控系统的设计与实现-控制工程专业论文.docx
- 广济药业财务风险分析与控制-会计学专业论文.docx
- 轨道静态横距测量仪的研制-载运工具运用工程专业论文.docx
- 汉魏六朝“拟作闺音”诗研究-中国古代文学专业论文.docx
- 轨道交通轮轨噪声预测与控制的分析-车辆工程专业论文.docx
- 贯流式水轮机转轮模型试验-机械电子工程专业论文.docx
- 轨道交通轮轨噪声预测与控制的研究-车辆工程专业论文.docx
- 关于我国造船业发展方向的初步分析-工商管理专业论文.docx
- 过渡金属催化炔酰胺氧化胺化引发的碳氢键官能团化反应研究-有机化学专业论文.docx
- 关于中度智力障碍学生体育课程形成的研究体育人文社会学专业论文.docx
最近下载
- 格力电器营运能力分析报告.docx VIP
- 小学英语三年级上学期期末模拟试题测试卷(含答案)(1).pdf VIP
- 基于5种罕见病可负担性评价我国罕见病保障机制研究.PDF VIP
- 自制《大学罗马尼亚语》词汇手册.doc
- 鼎信JB-QT-TS3200火灾报警控制器(联动型)安装使用说明书 XF2.900.029AS Ver.pdf VIP
- 中职语文高教版(2023)基础模块下册第三单元1.《祝福》教案.docx VIP
- 【MOOC】数字电路分析与设计实验-浙江大学 中国大学慕课MOOC答案.docx VIP
- 输血安全管理制度 课件.ppt VIP
- 宁远河橡胶坝建设工程环评报告 .doc VIP
- 王力《古代汉语》第一册(第三单元)第一部分PPT.pptx VIP
原创力文档


文档评论(0)