数据挖掘重要知识点.docxVIP

下载本文档

4
0
约4.85千字
约 11页
2023-09-21 发布于湖北
举报
版权申诉

数据挖掘重要知识点.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有：广义知识，关联知识，类知识，预测型知识，特异型知识 3. web挖掘研究的主要流派有：Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说，KDD是一个多步骤的处理过程，一般分为问题定义、数据抽取、数据预处理，数据挖掘以及模式评估等基本阶段。 5. 数据库中的知识发现处理过程模型有：阶梯处理过程模型，螺旋处理过程模型，以用户为中心的处理结构模型，联机KDD模型，支持多数据源多知识模式的KDD处理模型。 6. 粗略地说，知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段，其中后面两种反映了目前知识发现软件的两个主要发展方向。 7. 决策树分类模型的建立通常分为两个步骤：决策树生成，决策树修剪。 8. 从使用的主要技术上看，可以把分类方法归结为四种类型：基于距离的分类方法决策树分类方法贝叶斯分类方法规则归纳方法 9. 关联规则挖掘问题可以划分成两个子问题：发现频繁项目集:通过用户给定Minsupport ，寻找所有频繁项目集或者最大频繁项目集。生成关联规则:通过用户给定Minconfidence ，在频繁项目集中，寻找关联规则。 10. 数据挖掘是相关学科充分发展的基础上被提出和发展的，主要的相关技术：数据库等信息技术的发展统计学深入应用人工智能技术的研究和应用 11. 衡量关联规则挖掘结果的有效性，应该从多种综合角度来考虑：准确性：挖掘出的规则必须反映数据的实际情况。实用性：挖掘出的规则必须是简洁可用的。新颖性：挖掘出的关联规则可以为用户提供新的有价值信息。 12. 约束的常见类型有：单调性约束; 反单调性约束; 可转变的约束; 简洁性约束. 13. 根据规则中涉及到的层次，多层次关联规则可以分为：同层关联规则：如果一个关联规则对应的项目是同一个粒度层次，那么它是同层关联规则。层间关联规则：如果在不同的粒度层次上考虑问题，那么可能得到的是层间关联规则。 14. 按照聚类分析算法的主要思路，聚类方法可以被归纳为如下几种。划分法：基于一定标准构建数据的划分。属于该类的聚类方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。层次法：对给定数据对象集合进行层次的分解。密度法：基于数据对象的相连密度评价。网格法：将数据空间划分成为有限个单元(Cell)的网格结构，基于网格结构进行聚类。模型法：给每一个簇假定一个模型，然后去寻找能够很好的满足这个模型的数据集。 15. 类间距离的度量主要有：最短距离法：定义两个类中最靠近的两个元素间的距离为类间距离。最长距离法：定义两个类中最远的两个元素间的距离为类间距离。中心法：定义两类的两个中心间的距离为类间距离。类平均法：它计算两个类中任意两个元素间的距离，并且综合他们为类间距离：离差平方和。 16. 层次聚类方法具体可分为：凝聚的层次聚类：一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到某个终结条件被满足。分裂的层次聚类：采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到达到了某个终结条件。层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。 17. 文本挖掘(TD)的方式和目标是多种多样的，基本层次有：关键词检索：最简单的方式，它和传统的搜索技术类似。挖掘项目关联：聚焦在页面的信息(包括关键词)之间的关联信息挖掘上。信息分类和聚类：利用数据挖掘的分类和聚类技术实现页面的分类，将页面在一个更到层次上进行抽象和整理。自然语言处理：揭示自然语言处理技术中的语义，实现Web内容的更精确处理。 18. 在web访问挖掘中常用的技术：路径分析：路径分析最常用的应用是用于判定在一个Web站点中最频繁访问的路径，这样的知识对于一个电子商务网站或者信息安全评估是非常重要的。关联规则发现：使用关联规则发现方法可以从Web访问事务集中，找到一般性的关联知识。序列模式发现：在时间戳有序的事务集中，序列模式的发现就是指找到那些如“一些项跟随另一个项”这样的内部事务模式。分类：发现分类规则可以给出识别一个特殊群体的公共属性的描述。这种描述可以用于分类新的项。聚类：可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务日志中，聚类顾客信息或数据项，就能够便于开发和执行未来的市场战略。 19. 根据功能和侧重点不同，数据挖掘语言可以分为三种类型：数据挖掘查询语言：希望以一种像SQL这样的数据库查询语言完成数据挖掘的任务。数据挖掘建模语言：对数据挖