- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联分析: 高级概念第7章关联分析: 高级概念关联分析处理事务数据Rules Discovered: {Diaper} -- {Beer}处理分类属性许多应用包含对称二元属性和标称属性。表7-1显示的因特网调查数据包含对称二元属性,如:性别、家庭计算机、网上聊天、网上购物和关注隐私;还包括标称属性,如文化程度和州。我们可能发现关于因特网用户特征的有趣信息: {网上购物=是} ? {关注隐私=是}处理分类属性为了提取这样的模式,我们需要将标称属性和对称二元属性转换成“项”,使得已有的关联规则挖掘算法可以使用。这种类型的变化可以通过为每个不同的属性-值对创建一个新的项来实现。例如: 标称属性文化程度可以用三个二元项取代 文化程度=大学 文化程度=研究生 文化程度=高中类似的,对称二元属性性别可以转换成一对二元项:性别=男、性别=女。处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(1)有些属性值可能不够频繁,不能成为频繁模式的一部分。如:州名。解决办法:将相关的属性值分组,形成少数类别。例如,每个州名都可以用对应的地理区域取代。例如:分别用中西部、太平洋西北部、西南部和东海岸取代。处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(2)某些属性值的频率可能比其他属性高很多。如:假定85%的被调查人都有家庭计算机,如果为每个频繁出现在数据中的属性值创建一个二元项,我们可能产生许多冗余模式。 {家庭计算机=是,网上购物=是} ?{关注隐私=是}解决办法:使用处理具有宽支持度的极差数据集的技术。处理分类属性将关联分析用于二元化后的数据时,需要考虑如下问题。(3)计算时间可能增加,特别是当新创建的项变成频繁项时。因为会产生更多的候选项集。解决办法:避免产生包含多个来自同一个属性的项的候选项集。例如:不必产生诸如{州=X,州=Y,…}的候选项集,因为该项集支持度为零。处理连续属性因特网调查数据可能还包含连续属性,如表7-3所示。挖掘连续属性可能揭示数据的内在联系,如“年收入超过120k的用户属于45-60年龄组”或“拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私”:包含连续属性的关联规则通常称作量化关联规则(quantiative association rule)。对连续数据进行关联分析的方法:基于离散化的方法非离散化方法基于统计学的方法基于离散化的方法离散化是处理连续属性最常用的方法。这种方法将连续属性的邻近值分组,形成有限个区间。例如:年龄属性可以划分为如下区间: [12,16),[16,20),[20,24),…,[56,60)离散化技术:等宽、等频、聚类表7-4显示了离散化和二元化后的因特网调查数据。属性离散化的一个关键在于划分每个属性的区间个数和宽度。然而,确定正确的区间是困难的。如果支持度阈值=5%,置信度阈值=65%。我们可以从表中推出年龄和网上聊天隐含强规则: [16,24) ?网上聊天=是(s=8.8%,c=81.5%) [44,60) ?网上聊天=否(s=16.8%,c=70%)区间宽度对关联分析结果的影响。(1)如果区间太宽,则可能因为缺乏置信度而失去某些规则例如:当区间宽度为24岁时,上面的两个规则变为 [16,36) ?网上聊天=是(s=30%,57.7%) [36,60) ?网上聊天=否(s=28%,58.3%)区间宽度对关联分析结果的影响。(2)如果区间太窄,则可能因为缺乏支持度而失去某些规则例如:当区间宽度为4岁时,上面的两个规则变为 [16,20) ?网上聊天=是(s=4.4%,84.6%) [20,24) ?网上聊天=是(s=4.4%,78.6%)(3)当区间宽度为8岁时,上面的两个规则变为 [44,52) ?网上聊天=否(s=8.4%,70%) [52,60) ?网上聊天=否(s=8.4%,70%) [12,20) ?网上聊天=是(s=9.2%,60.5%) [20,28) ?网上聊天=是(s=9.2%,60.0%)非离散化方法有一些应用,分析者更感兴趣的是发现连续属性之间的关系。例如,找出表7-6所示文本文档中词的关联。在文本挖掘中,分析者更感兴趣的是发现词之间的关联(例如:数据和挖掘)。而不是词频区间(例如,数据:[1,4],挖掘:[2,3])之间的关联。一种方法是将数据变换成0/1矩阵;其中,如果规范化词频超过某个阈值t,则值为1,否则为0。该方法缺点是阈值难确定。另一种方法是采用min-apriori方法。 S({word1, word2})=min(0.3, 0.6)+min(0.1 , 0.2)+ min(0.4,0.2)+min(0.2, 0) =0.6Min-apriori中支持度s随着词的规范化频率增加而增大。随包含该词的文档个数
您可能关注的文档
最近下载
- 2025年中国四氯化锆项目投资计划书.docx
- 天津城建大学信号与系统考研真题试题2018年.pdf VIP
- 冲压式蜂窝煤成型机机构机械原理 课程设计.doc VIP
- 人教版2024四年级上册英语 Unit 3 Places we live in A 第2课时 课件.pptx VIP
- 中式烹调师高级理论知识试题(职业技能鉴定国家题库).doc VIP
- 第七章溶胶凝胶法制备薄膜及涂层材料.ppt VIP
- (完整版)译林版七年级英语单词表(下)s.pdf VIP
- METS(医药类)第三级考试词汇表.doc VIP
- 2025年模拟赛车项目可行性研究报告.docx
- 2025年水平定向钻市场调查报告.docx
文档评论(0)