数据挖掘中的名词解释.docVIP

下载本文档

531
0
约1.92千字
约 2页
2017-08-20 发布于北京
举报
版权申诉

数据挖掘中的名词解释.doc

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一章数据挖掘(Data Mining)，就是从存放在数据库，数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。人工智能(Artificial Intelligence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。机器学习(Machine Learning)是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。知识工程是人工智能的原理和方法，对那些需要专家知识才能解决的应用难题提供求解的手段。信息检索（Information Retrieval）是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术。数据可视化是关于数据之视觉表现形式的研究；其中，这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息，包括相应信息单位的各种属性和变量。联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。在联机事务处理中，事务是被立即执行的，这与批处理相反，一批事务被存储一段时间，然后再被执行。联机分析处理使分析人员，管理人员或执行人员能够从多角度对信息进行快速一致，交互地存取，从而获得对数据的更深入了解的一类软件技术。决策支持系统(decision support)是辅助决策者通过数据、模型和知识，以人机交互方式进行半结构化或非结构化决策的计算机应用系统。它为决策者提供分析问题、建立模型、模拟决策过程和方案的环境，调用各种信息资源和分析工具，帮助决策者提高决策水平和质量知识发现（KDD：Knowledge Discovery in Databases）是从数据集中别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。事务数据库(Transaction Database) 12，分布式数据库（Distributed Database）是用计算机网络将物理上分散的多个数据库单元连接起来组成一个逻辑统一的数据库。是指利用并行处理机使用挖掘算法或在并行计算的环境下完成数据的高效挖掘工作。 14, 频繁项目集（Frequent Itemsets）对项目集I和事务数据库D，T中所有满足用户指定的最小支持度（Minsupport）的项目集，即大于或等于Minsupport的I的非空子集 15，最大频繁项目集（Maximum Frequent Itemsets）在频繁项目集中挑选出所有不被其他元素包含的频繁项目集 16，闭合项目集（Close Itemset）如果项目的直接超集都不具有和它相同的支持度技术则该项目是闭合的 17，多层次关联规则：具有概念分层的关联规则挖掘产生的规则称为多层关联规则。在关联规则中的项或属性每个涉及多个维，则它就是多维关联规则。通过支持度和置信度这两个值来决策树。每个决策或事都可能引出两个或多个事件，导致不同的结果，把这种决策分支画成图形很像一棵树的枝干，故称决策树。当根据经验及有关材料推测出主观概率后对其是否准确没有充分把握时可采用概率论中的贝叶斯公式进行修正修正前的概率称为先验概率修正后的概率称为后验概率利用后验概率再进行风险分析1. 划分方法(partitioning methods)给定一个有N个元组或者纪录的数据集，分裂法将构造K 个分组，每一个分组就代表一个聚类，KN。而且这K个分组满足下列条件：（1）每一个分组至少包含一个数据纪录；（2）每一个数据纪录属于且仅属于一个分组 2. 层次方法(hierarchical methods)这种方法对给定的数据集进行层次似的分解，直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。 3. 基于密度的方法(density-based methods)基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是，只要一个区域中的点的密度大过某个阀值，就把它加到与之相近的聚类中去。 4. 基于网格的方法(grid-based methods)这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。