北京工业大学-数据挖掘.docxVIP

下载本文档

16
0
约3.53千字
约 18页
2018-06-29 发布于上海
举报
版权申诉

北京工业大学-数据挖掘.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘老师范围最简知识点第一章数据仓库：是一个面向主题的, 集成的, 时变的, 非易失的的数据集合数据挖掘：就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘分析方法：分类、估值、预言、相关性分组或关联规则、聚集、描述和可视化数据挖掘的过程：第二章数据属性：是一个数据字段，表示数据对象的一个特征属性类别：标称的二元的序数的数值的数据的中心趋势度量方法：均值、中位数、众数数据相似性和异度量方法：欧式距离：它是在m维空间中两个点之间的真实距离曼哈顿距离:切比雪夫距离:例子上下为一题闵可夫斯基距离：第三章数据预处理：是指在主要的处理以前对数据进行的一些处理。比如缺项，噪声（工资=-100），不匹配（年龄和出生日期不匹配），冗余等等。原因：不完备：丢失属性，缺少某个感兴趣的属性，或仅含累计值。噪声：包含错误点和离群点不一致：存在代码或者名称的分歧数据预处理中的主要任务：数据清理、数据集成、数据归纳、数据变换处理缺失值数据的方法：忽略：删除带有缺失值的属性或者案例、适用于错误率低的数据手工填充缺失值自动填充缺失值（根据推理得到）离群点分析的方法：通过如聚类来检测离群点聚类将类似的值组织成群或“簇”，落在簇集合之外的值被视为离群点如何对数据进行分箱：分箱方法通过考察数据的“临近”来光滑有序数据值箱均值光滑箱中位数光滑箱边界光滑。第四章数据仓库与OLAP技术数据仓库概念：数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策过程数据仓库特点：面向主题的、集成的、随时间而变化的（反映历史变化）、不容易丢失（相对稳定）数据仓库的组成：数据库数据抽取工具（ETL）元数据访问工具数据集市数据仓库管理工具信息发布系统数据仓库的体系结构：三层数据仓库模型联系分析处理OLAP：概念：即联机分析处理，是数据仓库的核心部心，所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库，用于处理商业智能、决策支持等重要的决策信息OLAP特点：快速性：快速反应能力可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析多维性：系统必须提供对数据分析的多维视图和分析，包括对层次维和多重层次维的完全支持。信息性：不论数据量有多大，也不管数据存储在何处，OLAP系统应能及时获得信息，并且管理大容量信息。第五章关联规则基本概念频繁模式：是频繁地出现在数据集中的模式（如项集、子序列或子结构）频繁集项：根据特征提取器得到的特征向量给一个被测对象附一个类别标记。支持度（support）支持度：{X, Y}同时出现的概率，例如：{尿布，啤酒}同时出现的概率{尿布，啤酒}的支持度 = 800 / 10000 = 0.08 {尿布，面包}的支持度 = 100 / 10000 = 0.01**{尿布，啤酒}的支持度等于{啤酒，尿布}的支持度，支持度没有先后顺序之分置信度（confidence）置信度：购买X的人，同时购买Y的概率，例如：购买尿布的人，同时购买啤酒的概率，而这个概率就是购买尿布时购买啤酒的置信度( 尿布 - 啤酒 ) 的置信度 = 800 / 1000 = 0.8 ( 啤酒 - 尿布 ) 的置信度 = 800 / 2000 = 0.4支持度与置信度规则的支持度和置信度是两个规则兴趣度度量，它们分别反映发现规则的有用性和确定性Apriori算法：原理：Apriori 使用一种称作逐层搜索的迭代方法，k-项集用于探索(k+1)-项集。首先，找出频繁1-项集的集合。该集合记作L1。L1 用于找频繁2-项集的集合L2，而L2 用于找L3，如此下去，直到不能找到频繁k-项集。找每个Lk 需要一次数据库扫描。步骤简化：连接剪枝验证回到1，直到没有频繁集生成FP-tree算法：原理：FP Tree算法改进了Apriori算法的I/O瓶颈，巧妙的利用了树结构来提高算法运行速度。利用内存数据结构以空间换时间。步骤：扫描数据，得到所有频繁一项集的的计数。然后删除支持度低于阈值的项，将1项频繁集放入项头表，并按照支持度降序排列。扫描数据，将读到的原始数据剔除非频繁1项集，并按照支持度降序排列。读入排序后的数据集，插入FP树，插入时按照排序后的顺序，插入FP树中，排序靠前的节点是祖先节点，而靠后的是子孙节点。如果有共用的祖先，则对应的公用祖先节点计数加1。插入后，如果有新节点出现，则项头表对应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后，FP树的建立完成。从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项项的频繁项集。如果不限制频繁项集的项数，则返回步骤4所有的频繁项集，否