数据挖掘练习题附答案 .pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据挖掘练习题A

一、简答题

1.数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?

答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离

2.简述朴素贝叶斯分类的基本思想。

答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率

最大,就认为此待分类项属于哪个类别。

,ᵄ,…,ᵄ}为一个待分类项,ᵄ为ᵆ的特征属性;

1)设ᵆ={ᵄ

!#

,ᵆ,…,ᵆ}

2)有类别集合ᵃ={ᵆ

!$

|ᵆ),ᵅ(ᵆ|ᵆ),…ᵅ(ᵆ|ᵆ)

3)计算ᵅ(ᵆ

!$

|)(|)(|)

(ᵆ=max{ᵅᵆᵆ,ᵅᵆᵆ,…,ᵅ(ᵆ|ᵆ)},则ᵆ∈ᵆ

4)如果ᵅᵆ

%!%%

3.在做数据清洗时,如何处理缺失值?

答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值

填充、平均值填充、使用最可能的值填充;3)不处理。

4.简述K-means算法的基本步骤。

答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,

然后把每个对象归入离它最“近”的簇;3)计算各簇中对象的平均值,然后选择簇中心

(离平均值最“近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。

5.在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?

答:支持度support(x-y)=p(x,y),表示项集中同时含有x和y的概率。

置信度confidence(x-y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联

结果y发生的概率,即含有x的项集中,同时含有y的可能性。

二、计算题

1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最

小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性

变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。如果x_min=10,

x_max=540,x=100,要做0-1规范化,结果为何?

!#=(!#)=!#(ᵆ−ᵆ)−ᵆ

解:转化函数满足,即有ᵆ

((#*#+$#+$

!$%!#!$%!#!$%!#

)!#

若做0-1规划,有ᵆ=0,ᵆ=1,代入得ᵆ=

#+$#*

!$%!#

)=!,,!,=/

再代入相应得取值,得ᵆ

-.,!,,..

2.已知以下数据集,现希望用一元线性回归方程进行拟合,试找出相应的回归线。提

示:利用最小二乘法,目标是最小化误差。

广告费6

23

文档评论(0)

精品文档 + 关注
实名认证
文档贡献者

有多年的一线教育工作经验 欢迎下载

1亿VIP精品文档

相关文档