置信度度量缺陷与改进.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘导论论文 置信度度量的缺陷和改进 摘要:置信度通过确定Y在包含X的事务中出现的频繁度,从而确定Y和X是否相关联。可是这种度量方式也存在着局限性,我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估,这就需要我们通过不断的对比,找出该模型对应的最好度量。 关键词:置信度 提升度 兴趣因子 IS度量 置信度度量的作用:置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。 如: 网球拍 网球 1 1 1 2 1 1 3 1 0 4 1 0 5 0 1 6 1 1 事务1,2,3,4,6包含网球拍,事务1,2,6同时包含网球拍和网球,支持度(X^Y)/D=0.5,置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5,最小置信度β = 0.6,认为购买网球拍和购买网球之间存在关联。 (支持度揭示了A和B同时出现的频率,如果A和B一起出现的频率非常小,那么就说明了A和B之间的联系并不大;但若一起出现的频率非常频繁,那么A和B总是相关联的知识也许已经成为常识而存在了) 置信度度量存在的缺陷:虽然通过置信度可以知晓事务之间是否存在关联,但是置信度度量也存在着一些无可避免的缺陷,和自相矛盾。 咖啡 茶 15 5 20 75 5 80 90 10 100 其中,关联规则:茶→咖啡 置信度=P(咖啡|茶)=0.75 但P(咖啡)=0.9 虽然置信度高, 但规则存在误导 p(咖啡|)=0.9375 我们对100人做度量,发现有20人会买茶叶,其中有15人会买喝咖啡,5人不买咖啡,那么我们通过置信度计算发现(买茶买咖啡)这个的置信度非常高,我们于是可以推算出买茶的人都会买咖啡。但是其实我们看接下来的调查,另外不买茶叶的80人中,有75人买咖啡。不管他是否买茶,买咖啡的人的比例是90%,而买咖啡的买茶者却只占75%,也就是说,一个人如果买了茶,则他买咖啡的可能性从80%降到75%。综上所述,我们可以发现,其实喝茶和喝咖啡其实是两个相对独立事件。所以我们可以概括一下,置信度的缺点,就是置信度度量忽略了规则后件中项集的支持度。 改进置信度度量——引进兴趣度/提升度 从买茶和买咖啡的例子来看,如果考虑买咖啡者的支持度,我们可以发现许多买茶的人也买咖啡,但是,既买咖啡又买茶的人所占的比例少于所有买咖啡的人所占的比例,这表明买茶者和买咖啡者存在着一种逆相关。 我们可以引入提升度(lift),来计算置信度和规则后件项集支持度的比率:lift(AB)=c(AB)/s(B),那么对于二元项集来说,我们可以做这样一个变换:lift(XY)=c(XY)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/ p(X)p(Y)那么这里,我们则可以把lift(XY)称为兴趣因子,表示为I(A,B)通过概率学知识我们可以知道,如果X事件和Y事件相互独立(或者我们称之为满足事件独立性假设),那么p(X,Y)=p(X)*p(Y),那么我们则可以这样来表示兴趣因子的度量:当I(A,B)=1时,我们称A和B是相互独立的,当I(A,B)1时,我们称A和B是负相关的,否则我们称A和B是正相关的。 拿茶和咖啡的例子来说:置信度=P(咖啡|茶)=0.75 P(咖啡)=0.9 Lift=0.75/0.9=0.8333 因此,买茶叶和买咖啡是负相关。 但是从计算模型,我们可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱,它存在着一定的缺陷。 Y X 90 0 90 0 10 10 90 10 100 例一: Y X 10 0 10 0 90 90 10 90 100 从表一得出的数据我们可以知道X,Y是正相关,而表二兴趣因子却将近一,表明了X,Y是相对独立的,可是我们观察得出,有X必有Y,无X必无Y,因此二者应该是相关联的。 R S 20 50 70 50 880 930 70 930 1000 例二: P Q 880 50 930 50 20 70 930 70 1000 {P,Q}和{R,S}的兴趣因子分别为1.02,4.08。这个结果存在着一些问题,P和Q的兴趣因子将近1,从理论上说P和Q是相对独立的,可是它们同时出现的概率是88%,置信度是0.946;而S和R的兴趣因子虽然是4.08,但是它们同时出现的概率只有2%,置信度是28.6%,这表明了{S,R}的关联不及{P,Q}。在这种情况下,置信度可能是一种更好的选择,因为置信度表明P和Q之间的关联94.6%远远强于R和S之间的关联28.6%。 从以上两

文档评论(0)

jgx3536 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6111134150000003

1亿VIP精品文档

相关文档