置信度度量缺陷与改进.docVIP

下载本文档

0
0
约9.56千字
约 6页
2017-08-04 发布于河南
举报
版权申诉

置信度度量缺陷与改进.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘导论论文置信度度量的缺陷和改进摘要：置信度通过确定Y在包含X的事务中出现的频繁度，从而确定Y和X是否相关联。可是这种度量方式也存在着局限性，我们可以通过引入兴趣度/提升度来消除置信度存在的不足。但单独引入提升度也会对某些模型做出错误的评估，这就需要我们通过不断的对比，找出该模型对应的最好度量。关键词：置信度提升度兴趣因子 IS度量置信度度量的作用：置信度度量通过规则进行推行具有可靠性。对于给定的规则X→Y,置信度越高，Y在包含X的事务中出现的可能性就越大。置信度也可以估计Y在给定X下的条件概率。如：网球拍网球 1 1 1 2 1 1 3 1 0 4 1 0 5 0 1 6 1 1 事务1,2,3,4,6包含网球拍，事务1,2,6同时包含网球拍和网球，支持度(X^Y)/D=0.5，置信度(X^Y)/X=0.6。若给定最小支持度α = 0.5，最小置信度β = 0.6，认为购买网球拍和购买网球之间存在关联。（支持度揭示了A和B同时出现的频率，如果A和B一起出现的频率非常小，那么就说明了A和B之间的联系并不大；但若一起出现的频率非常频繁，那么A和B总是相关联的知识也许已经成为常识而存在了）置信度度量存在的缺陷：虽然通过置信度可以知晓事务之间是否存在关联，但是置信度度量也存在着一些无可避免的缺陷，和自相矛盾。咖啡茶 15 5 20 75 5 80 90 10 100 其中，关联规则：茶→咖啡置信度=P(咖啡|茶)=0.75 但P(咖啡)=0.9 虽然置信度高, 但规则存在误导 p(咖啡|）=0.9375 我们对100人做度量，发现有20人会买茶叶，其中有15人会买喝咖啡，5人不买咖啡，那么我们通过置信度计算发现(买茶买咖啡)这个的置信度非常高，我们于是可以推算出买茶的人都会买咖啡。但是其实我们看接下来的调查，另外不买茶叶的80人中，有75人买咖啡。不管他是否买茶，买咖啡的人的比例是90%，而买咖啡的买茶者却只占75%，也就是说，一个人如果买了茶，则他买咖啡的可能性从80%降到75%。综上所述，我们可以发现，其实喝茶和喝咖啡其实是两个相对独立事件。所以我们可以概括一下，置信度的缺点，就是置信度度量忽略了规则后件中项集的支持度。改进置信度度量——引进兴趣度/提升度从买茶和买咖啡的例子来看，如果考虑买咖啡者的支持度，我们可以发现许多买茶的人也买咖啡，但是，既买咖啡又买茶的人所占的比例少于所有买咖啡的人所占的比例，这表明买茶者和买咖啡者存在着一种逆相关。我们可以引入提升度(lift)，来计算置信度和规则后件项集支持度的比率：lift(AB)=c(AB)/s(B)，那么对于二元项集来说，我们可以做这样一个变换：lift(XY)=c(XY)/s(Y)=(p(X,Y)/p(X))/p(Y)=p(X,Y)/ p(X)p(Y)那么这里，我们则可以把lift(XY)称为兴趣因子，表示为I(A,B)通过概率学知识我们可以知道，如果X事件和Y事件相互独立（或者我们称之为满足事件独立性假设），那么p(X,Y)=p(X)*p(Y)，那么我们则可以这样来表示兴趣因子的度量：当I(A,B)=1时，我们称A和B是相互独立的，当I(A,B)1时，我们称A和B是负相关的，否则我们称A和B是正相关的。拿茶和咖啡的例子来说：置信度=P(咖啡|茶)=0.75 P(咖啡）=0.9 Lift=0.75/0.9=0.8333 因此，买茶叶和买咖啡是负相关。但是从计算模型，我们可以很轻易地感觉出单纯用兴趣因子来做关联度度量的不靠谱,它存在着一定的缺陷。 Y X 90 0 90 0 10 10 90 10 100 例一： Y X 10 0 10 0 90 90 10 90 100 从表一得出的数据我们可以知道X,Y是正相关，而表二兴趣因子却将近一，表明了X,Y是相对独立的，可是我们观察得出，有X必有Y，无X必无Y，因此二者应该是相关联的。 R S 20 50 70 50 880 930 70 930 1000 例二： P Q 880 50 930 50 20 70 930 70 1000 {P,Q}和{R,S}的兴趣因子分别为1.02,4.08。这个结果存在着一些问题，P和Q的兴趣因子将近1，从理论上说P和Q是相对独立的，可是它们同时出现的概率是88%，置信度是0.946；而S和R的兴趣因子虽然是4.08，但是它们同时出现的概率只有2%，置信度是28.6%，这表明了{S,R}的关联不及{P，Q}。在这种情况下，置信度可能是一种更好的选择，因为置信度表明P和Q之间的关联94.6%远远强于R和S之间的关联28.6%。从以上两