- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘练习题A
一、简答题
1.数据对象之间的相似性可用距离来衡量,常见的距离形式有哪些?
答:曼哈顿距离,欧几里得距离,切比雪夫距离,闵可夫斯基距离,杰卡德距离
2.简述朴素贝叶斯分类的基本思想。
答:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个概率
最大,就认为此待分类项属于哪个类别。
,ᵄ,…,ᵄ}为一个待分类项,ᵄ为ᵆ的特征属性;
1)设ᵆ={ᵄ
!#
,ᵆ,…,ᵆ}
2)有类别集合ᵃ={ᵆ
!$
|ᵆ),ᵅ(ᵆ|ᵆ),…ᵅ(ᵆ|ᵆ)
3)计算ᵅ(ᵆ
!$
|)(|)(|)
(ᵆ=max{ᵅᵆᵆ,ᵅᵆᵆ,…,ᵅ(ᵆ|ᵆ)},则ᵆ∈ᵆ
4)如果ᵅᵆ
%!%%
3.在做数据清洗时,如何处理缺失值?
答:处理缺失值的方法有3种:1)忽略元组;2)数据补齐,包括人工填写、特殊值
填充、平均值填充、使用最可能的值填充;3)不处理。
4.简述K-means算法的基本步骤。
答:1)任意选择k个对象作为初始的簇中心;2)计算其它对象与这k个中心的距离,
然后把每个对象归入离它最“近”的簇;3)计算各簇中对象的平均值,然后选择簇中心
(离平均值最“近”的簇);4)重复第2步到第3步直到簇中心不再变化为止。
5.在关联规则中,支持度(support)和置信度(confidence)的含义分别是什么?
答:支持度support(x-y)=p(x,y),表示项集中同时含有x和y的概率。
置信度confidence(x-y)=p(y/x),表示在关联规则的先决条件x发生的条件下,关联
结果y发生的概率,即含有x的项集中,同时含有y的可能性。
二、计算题
1.假定属性A的取值x在[x_min,x_max]之间,其中x_min和x_max分别为属性A的最
小值和最大值,请利用最小-最大规范化方法(也称离差标准化,是对原始数据的线性
变化),将x转化到新的区间[y_min,y_max]中,结果用x’表示。如果x_min=10,
x_max=540,x=100,要做0-1规范化,结果为何?
!#=(!#)=!#(ᵆ−ᵆ)−ᵆ
解:转化函数满足,即有ᵆ
((#*#+$#+$
!$%!#!$%!#!$%!#
)!#
若做0-1规划,有ᵆ=0,ᵆ=1,代入得ᵆ=
#+$#*
!$%!#
)=!,,!,=/
再代入相应得取值,得ᵆ
-.,!,,..
2.已知以下数据集,现希望用一元线性回归方程进行拟合,试找出相应的回归线。提
示:利用最小二乘法,目标是最小化误差。
广告费6
23
文档评论(0)