置信度度量的缺和改进.docVIP

  • 27
  • 0
  • 约9.36千字
  • 约 5页
  • 2016-10-06 发布于贵州
  • 举报
置信度度量的缺和改进

数据挖掘导论论文 置信度度量的缺陷和改进 摘要:置信度通过确定Y在包含X的事务中出现的频繁度,从而确定Y和X是否相关联。可是这种度量方式也存在着局限性,我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估,这就需要我们通过不断的对比,找出该模型对应的最好度量。 关键词:置信度 提升度 兴趣因子 IS度量 置信度度量的作用:置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。 如: 网球拍 网球 1 1 1 2 1 1 3 1 0 4 1 0 5 0 1 6 1 1 事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。 揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了 茶 15 5 20 75 5 80 90 10 100 其中,关联规则:茶→咖啡 置信度=P(咖啡|茶)=0.75 但P(咖啡

文档评论(0)

1亿VIP精品文档

相关文档