网站大量收购独家精品文档,联系QQ:2885784924

大数据知识点梳理.doc

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据知识点梳理

第一章’,模式P是一个闭模式。如果不存在P的频繁超模式,模式P是一个极大模式。 基于模式所涉及的抽象层:模式或关联规则可能具有处于高、低或多个抽象层的项,则挖掘的规则集由多层关联规则组成,反之,如果在给定的规则集中,规则不涉及不同抽象层的项或属性,则该集合包含单层关联规则。 基于规则或模式所涉及的维数:如果关联规则或模式中的项或属性只涉及一个维,则它是单维关联规则/模式。如果规则/模式涉及两个或多个维,则它是多为关联规则 基于规则或模式中所处理的值类型:如果规则考虑的关联是项是否出现,则为布尔关联规则;如果规则描述的是量化的项或属性之间的关联,则它是量化关联规则。 基于挖掘选择性模式的约束或标准:被发现的模式或规则可以是基于约束的、近似的、压缩的、近似匹配的。 根据数据类型和所涉及的应用分类: 基于所挖掘的数据类型和特征,在这种情况下,频繁模式的挖掘本质上是频繁项集挖掘,也可以挖掘结构模式,即结构数据集中的频繁子结构。 基于应用领域的特定语义:多样性的应用数据导致大量不同的模式挖掘方法 基于数据分析的使用方法:频繁模式挖掘充当中间步骤,作为分类的特征提取步骤使用为基于模式的分类,基于模式的聚类显示了在聚类高维数据方面的优势 2、多层、多维空间中的模式挖掘 挖掘多层关联规则 关注在多个抽象层以足够的灵活性挖掘模式并易于在不同的抽象空间转换的方法。 在多个抽象层的数据上挖掘产生的关联规则为多层关联规则。对于所有层使用一致的最小支持度称为一致支持度,即在每个抽象层上挖掘时,使用相同的最小支持度阈值。缺点是较低抽象层的项不大可能像较高抽象层的项那样频繁出现。如果最小支持度阈值设置太高,则可能错失在较低抽象层中出现的有意义的关联。如果阈值设置太低,则可能会产生出现在较高抽象层的无趣的关联。 在较低层使用递减的最小支持度:抽象层越低,对应的阈值越小 使用基于项或基于分组的最小支持度,为了从具有不同支持度阈值的组中挖掘混合项模式,通常在挖掘中取所有组的最低支持度阈值。这将避免过滤掉有价值的模式。每组的最小支持度阈值要保持一致。缺点:可能产生一些多个抽象层上的冗余规则 挖掘多维关联规则 涉及两个或多个维或谓词的关联规则称为多维关联规则。具有不重复谓词的关联规则称为维间关联规则。包含某些谓词多次出现的规则称为混合维关联规则。 数据库属性可能是标称的或量化的。标称属性的值是“事物的名称”。量化属性是数值的,并在值之间具有一个隐序。根据量化属性的处理,挖掘多维关联规则的技术可以分为两种基本方法 一种是,使用预先定义的概念分层对量化属性离散化。这种离散化在挖掘之前进行。离散化的数值属性具有区间标号,可以像标称属性一样处理。我们称这种方法为使用量化属性的静态离散化挖掘多维关联规则。 第二种是根据数据分布将量化属性离散化或聚类到“箱”。这些箱可能在挖掘的过程中进一步组合。离散化的过程是动态的,这种方法挖掘的关联规则称为(动态)量化关联规则 挖掘量化关联规则 ——量化关联规则的基于数据立方体挖掘 ——挖掘基于聚类的量化关联规则 ——使用统计学理论发现异常行为 (4)挖掘稀有模式和负模式 非频繁(稀有)模式是支持度低于用户指定的最小支持度阈值的模式。可以定义负模式的方法有多种,我们考虑其中三种: 如果项集X和Y都是频繁的,但很少一起出现(sup(X∪Y)sup(X)×sup(Y)),则项集X和Y是负相关的,并且模式X∪Y是负相关模式。如果sup(X∪Y)≤sup(X)×sup(Y),则X和Y是强负相关的,并且模式X∪Y是强负相关模式。 如果X和Y是强负相关的,则 但是度量不一定是零不变的。 假设项集X和Y都是频繁的,如果,其中是负模式阈值,则X∪Y是负相关模式。 基于约束的频繁模式挖掘 约束包括:知识类型约束(关联、相关、分类或聚类)、数据约束(数据集)、维/层约束(数据维、抽象层、概念分层)、兴趣度约束(支持度、置信度和相关性)、规则约束(规则形式或条件)。 对于模式空间剪枝,有三类有助于基于约束搜索空间剪枝:反单调性、单调性和简洁性。对于数据空间剪枝,有数据的简洁性和数据的反单调性两种。 关联规则的元规则制导挖掘 元规则使得用户可以说明他们感兴趣的规则的语法形式,规则的形式可以作为约束,帮助提高挖掘过程的性能。元规则可以根据分析者的经验、期望或对数据的直觉,或者根据数据库模式自动产生。 基于约束的模式产生:模式空间剪枝和数据空间剪枝。 课工场创意学院

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档