- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验3 SSAS市场篮分析
实验三、SSAS中的关联分析
实验目的
理解数据挖掘关联规则的概念,学会用SQL Server 2005 BI进行关联分析的操作。
实验内容
学习Microsoft的关联算法
运用SSAS中关联模型进行菜篮子分析
完成任务
实验步骤
一、了解Microsoft 关联算法
Microsoft 关联算法是指 Microsoft SQL Server 2005 Analysis Services (SSAS) 提供的关联算法,对建议引擎非常有用。建议引擎根据客户已购买的项或者客户已对其表现出兴趣的项向他们推荐产品。Microsoft 关联算法对市场篮分析也非常有用。
关联模型基于包含各事例的标识符及各事例所包含项的标识符的数据集生成。事例中的一组项称为“项集”。关联模型由事例中一系列项集和说明这些项如何分组的规则组成。算法标识的规则可用于根据客户购物车中已有的项来预测客户将来可能购买的产品。以下关系图显示了项集中的一系列规则。
正如该关系图中所示,Microsoft 关联算法可能会在数据集中找到许多规则。该算法使用两个参数(support 和 probability)来说明项集以及该算法生成的规则。例如,如果 X 和 Y 表示可以放入购物车中的两个项,则 support 参数是数据集中包含 X 和 Y 这两项组合的事例的数目。通过将 support 参数与用户定义的 MINIMUM_SUPPORT 和 MAXIMUM_SUPPORT, 参数结合使用,算法可以控制生成的项集数。probability 参数也称为“置信度”,表示数据集中既包含 X 也包含 Y 的事例部分。通过将 probability 参数与 MINIMUM_PROBABILITY 参数结合使用,算法可控制生成的规则数。
1.1算法的原理
Microsoft 关联算法遍历数据集以查找同时出现在某个事例中的项。然后,算法将最少出现了由?MINIMUM_SUPPORT?参数指定的最少事例次数的关联项分组为项集。例如,项集可以为“Mountain 200=Existing, Sport 100=Existing”,并且支持的数目可以为 710,那么该算法将根据项集生成规则。可以使用这些规则根据是否存在该算法标识为重要项的其他特定项,预测数据库中的某项是否存在。例如,某规则可以为“if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing”,并且其概率可能为 0.812。在此例中,该算法发现由于购物篮中存在 Touring 1000 轮胎和水壶套,因此预测购物篮中也可能存在水壶。
1.2使用算法
关联模型必须包含一个键列、多个输入列以及一个可预测列。输入列必须为离散列。关联模型的输入数据通常包含在两个表中。例如,一个表可能包含客户信息,而另一个表可能包含客户购物情况。
Microsoft 关联算法支持下表中列出的特定输入列内容类型、可预测列内容类型以及建模标志。
输入列内容类型Cyclical、Discrete、Discretized、Key、Table 和 Ordered可预测列内容类型Cyclical、Discrete、Discretized、Table 和 Ordered建模标志MODEL_EXISTENCE_ONLY 和 NOT NULLMicrosoft 关联算法支持数个影响生成的挖掘模型的性能和准确性的参数。下表对各参数进行了说明:
参数说明MINIMUM_SUPPORT指定在该算法生成规则之前必须包含项集的事例的最小数目。将该值设置为小于 1 将指定最小事例数作为事例总计的百分比。将该值设置为大于 1 的整数将指定最小事例数作为必须包含项集的事例的绝对数。如果内存有限,则该算法可能会增大此参数的值。
默认值为 0.03。MAXIMUM_SUPPORT指定支持项集的事例的最大数目。如果该值小于 1,则表示事例总计的百分比。大于 1 的值表示可以包含项集的事例的绝对数。
默认值为 1。MINIMUM_ITEMSET_SIZE指定一个项集中允许的最小项数。
默认值为 1。MAXIMUM_ITEMSET_SIZE指定一个项集中允许的最大项数。将该值设置为 0 将指定对项集的大小没有限制。
默认值为 3。MAXIMUM_ITEMSET_COUNT指定要生成的最大项集数。如果没有指定数目,则使用默认值。默认值为 200000。
项集仅按照支持进行排名。在具有相同支持的项集中,排序是任意的。
MINIMUM_PROBABILITY指定规则为 True 的最小概率。例如,将该值设置为 0.5 将指定不生成概率小于百分之五
文档评论(0)