- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2017 ‐2018学期数据分析与挖掘课程试题
1. 请简要介绍数据挖掘技术的产生背景。 (5 ’)
答:随着通信、计算机和网络技术的快速发展,数据正以空前的速度产生和被收集。在各
行各业许多公司已经开始认识到客户对业务非常重要,客户信息是他们的宝贵财富。大量信息
在给人们带来方便的同时也带来了一大堆问题 :信息冗余、信息真假难以辨识、信息安全难以
保证、信息形式不一,难以统一处理等,人们淹没在数据中而难以快速制定合适的决策。在强
大的商业需求驱动下,商家开始注意到有效的解决大容量数据的利用问题具有巨大商机,学者
们开始思考如何从大容量数据集中获取有用信息和知识。面对这一挑战,数据挖掘技术应运而
生,并显示出强大的生命力。利用数据挖掘工具进行数据分析可以发现重要的数据模式,这对
商务策略、知识库、科学有重大贡献。
2. 请介绍数据挖掘包括哪些任务,并简要描述具体任务的工作内容。 (5 ’)
答:数据挖掘任务可以分为预测性和描述性任务。预测性任务如回归、分类、离群点检测,
描述性任务如聚类分析、关联分析、序列模式挖掘。
(1) 聚类 (Clustering) 分析:“物以类聚,人以群分”。聚类分析技术试图找出数据集中的共性和
差异,并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义,广
泛应用于客户细分、定向营销、信息检索等等。
(2) 分类 (Classification) 分析:通过分析示例数据库中的数据为每个类别做出准确的描述 或建
立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。分类
分析广泛应用于用户行为分析、风险分析、生物科学等。
(3) 关联 (Association) 分析:关联分析,发现特征之间的相互依赖关系,通常是从给定的数据
集中发现频繁出现的模式知识 (又称为关联规则 )。关联分析广泛用于市场营销、事务分析
等领域。
(4) 离群点 (Outlier) 检测:离群点检测就是发现与众不同的数据。可应用于商业欺诈行为的自
动检测,网络入侵检测,金融欺诈检测,反洗钱,犯罪嫌疑人调查,海关、税务稽查等。
(5) 回归 (Regression ) 分析:回归分析是确定两种或两种以上变数间相互依赖的定量关系的一
种分析方法。其可应用于风险分析、作文自动评分等领域。
(6) 序列模式 (Sequential Pattern) 挖掘:序列模式挖掘是指分析数据间的前后序列关系,包括
相似模式发现、周期模式发现等。其应用领域包括客户购买行为模式预测、 Web 访问模式
预测、疾病诊断、网络入侵检测等
3. 请简要介绍 C4.5 决策树算法。 (5 ’)
答: C4.5 是一系列用在机器学习和数据挖掘分类问题中的算法。它的目标是监督学习,
给定一个数据集 ,其中的每一个元组都能用一组属性值来描述 ,每一个元组属于一个互斥的类别
中的某一类。 C4.5 的目标是通过学习 ,找到一个从属性值到类别的映射关系 ,并且这个映射能用
于对新的类别未知的实体进行分类。
C4.5 决策树的生长算法描述如下:
(a )如果训练集全部属于同一个类别,那么创建一个叶节点;
(b )否则计算训练集中每个属性的信息增益率,选择增益率最大的属性作为决策属性,
并以该决策属性创建结点;
(c )对上一步中决策属性结点的每个取值添加一个分支;
(d )对每个分支的训练集,转至( a)。
C4.5 决策树的剪枝处理算法描述如下:
(a )计算待剪子枝中叶结点的加权估计误差;
(b )如果待剪子枝是一个叶结点,则结束;
(c )否则,计算其子树误差和所有的分支误差;
(d )如果叶结点误差小于子树误差和最大的分支误差,则剪枝,设置待剪子枝的根节点
为叶结点;
(e )如果最大的分支误差小于子树误差,则剪枝,以误差最大的分支替换待剪子树;
(f )否则,不剪枝。
4. 请简要介绍 K ‐Means算
您可能关注的文档
- 1数据挖掘每章知识.pdf
- 5.1FusionInsight技术基础-Hive架构原理.pdf
- 069SVC实施原理和命令.pdf
- 2010年全国自考计算机网络原理模拟试卷(八)及答案(20200921192801).pdf
- 2010年全国自考计算机网络原理模拟试卷(八)及答案.pdf
- 2015计算机组成原理随堂.pdf
- 2015秋计算机基础理论题+答案1.pdf
- 2015秋计算机基础学习知识理论题规范标准答案.pdf
- 2016-2017学年二学期计算机网络原理与技术C期中考试试卷(C卷)20170420191801.pdf
- 2016年秋计算机基础理论题答案解析.pdf
- 2022年部编人教版九年级数学上册期末考试题及答案【最新】.doc
- 人教部编版四年级数学(上册)期末质量分析卷及答案.doc
- 人教版一年级科学下册期中试卷及答案【一套】.doc
- 2023年人教版九年级地理(上册)期末考试卷及答案.doc
- 2022-2023年人教版七年级数学下册期中测试卷及答案【全面】.doc
- 苏教版五年级《数学》下册全单元测试题【附答案】.docx
- 人教版三年级语文上册期末考试卷及答案【全面】.doc
- 部编版五年级数学下册期中考试题及答案【完美版】.doc
- 2022年部编版六年级数学上册期末试卷加答案.doc
- 2021—2022年部编人教版三年级语文上册期末试卷(参考答案).doc
文档评论(0)