数据挖掘一些面试题总结分解.doc

数据挖掘一些面试题总结(Data Mining)摘录一段 企业面对海量数据应如何具体实施数据挖掘,使之转换成可行的结果/模型? 首先进行数据的预处理,主要进行数据的清洗,数据清洗,处理空缺值,数据的集成,数据的变换和数据规约。 请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。 ETL工具:Ascential???? DataStage?????? ,IBM??? warehouse????? MANAGER、Informatica公司的PowerCenter、Cognos?? 公司的DecisionStream 市场上的主流数据仓库存储层软件有:SQL??? SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。 元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能: (1)描述哪些数据在数据仓库中; (2)定义要进入数据仓库中的数据和从数据仓库中产生的数据; (3)记录根据业务事件发生而随之进行的数据抽取工作时间安排; (4)记录并检测系统数据一致性的要求和执行情况; (5)衡量数据质量。 数据挖掘对聚类的数据要求是什么?

文档评论(0)

1亿VIP精品文档

相关文档