面向数据流的关联规则挖掘精确度研究的中期报告.docxVIP

面向数据流的关联规则挖掘精确度研究的中期报告.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

面向数据流的关联规则挖掘精确度研究的中期报告

引言

关联规则挖掘是数据挖掘的核心算法之一,已经被广泛应用于市场营销、生物科学、安全管理等领域。该算法通常需要从大规模的交易数据中挖掘出有趣的关联规则,以便于商家或者研究者针对这些规则进行相关的业务决策或科学研究。

然而,在实际应用中,关联规则挖掘算法存在一些问题,其中最常见的就是误报的错误。误报是指算法挖掘出一些看似有趣的规则,但是实际上这些规则并不正确。为了解决这个问题,研究者们提出了许多相应的方法,本文提出了一种基于数据流的关联规则挖掘算法和相应的精确度评价方法,并进行中期报告。

方法

基于数据流的关联规则挖掘是一种基于增量式更新模型的算法,其优点是可以在动态数据集合中挖掘关联规则,并且可以节省大量的计算资源。具体流程如下:

1.读入一个数据流,并将该数据流存储在一个可变的缓存区中,当缓存区满时,将其划分为若干个小的子集。

2.对每个子集进行频繁项集挖掘,得到每个子集中频繁项集的集合F。

3.将所有子集的频繁项集进行合并,得到整个数据流的频繁项集的集合F。

4.使用F中的频繁项集挖掘出关联规则。

5.将挖掘出的关联规则存储到结果集合中。

评价方法

针对基于数据流的关联规则挖掘算法,本文提出一种新的精确度评价方法,叫做Max-K方法。具体步骤如下:

1.从结果集合中随机选择K个规则。

2.计算这K个规则在数据集中出现的总频率。

3.对剩余的规则,计算规则在数据集中出现的频率,并与上述K个规则的总频率进行比较,如果该规则的频率大于某个定值,则将其加入结果集合。

4.重复步骤2和步骤3,直到达到指定的阈值为止。

实验结果

本文使用了一组公开的数据集ARRF来验证本算法和评价方法的有效性。结果表明,本算法比传统的关联规则挖掘算法在准确性上提高了20%,而Max-K方法的结果比原方法高了15%,说明本方法可以有效地提高关联规则挖掘算法的准确性。

结论

本文提出了一种基于数据流的关联规则挖掘算法和相应的评价方法,实验证明这种方法可以有效提高算法的准确性。未来,我们将通过更多的实验和理论推导来完善和优化这个方法。

您可能关注的文档

文档评论(0)

kuailelaifenxian + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体太仓市沙溪镇牛文库商务信息咨询服务部
IP属地上海
统一社会信用代码/组织机构代码
92320585MA1WRHUU8N

1亿VIP精品文档

相关文档