数据分析面试题1.pdfVIP

下载本文档

66
0
约1.55万字
约 36页
2019-05-12 发布于浙江
举报
版权申诉

数据分析面试题1.pdf

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DC 共享平台——数据分析岗笔试面试题本材料是由 DataCastle 从谷歌、微软、facebook、百度等企业的网络公开招聘题中进行精选，并附上详细解析，适合应聘数据分析岗位的求职者，未经同意不得转载，请联系 zhengchengzhuang@datacastle.cn 提前沟通，未经授权的转载会联系法务进行处理。 1.一般，K-NN 最近邻方法在( )的情况下效果较好 A.样本较多但典型性不好 B.样本较少但典型性好 C.样本呈团状分布 D.样本呈链状分布答案：B 解析：样本呈团状颇有迷惑性，这里应该指的是整个样本都是呈团状分布，这样 kNN 就发挥不出其求近邻的优势了，整体样本应该具有典型性好，样本较少，比较适宜。 2.一个包里有 5 个黑球，10 个红球和 17 个白球。每次可以从中取两个球出来，放置在外面。那么至少取________次以后，一定出现过取出一对颜色一样的球。 A.16 B.9 C.4 D.1 答案：A 解析：考虑最坏的情况，前 10 次取出的都是红球+白球的组合，后 5 次取出的都是黑球+白球的组合，最后只剩下两个白球，则再取 1 次必取出相同颜色的球,因此总计 16 次。 3.用直接插入排序方法对下面 4 个序列进行排序(由小到大),元素比较次数最少的是 ( ) A.94,32,40,90,80,46,21,69 B.32,40,21,46,69,94,90,80 C.21,32,46,40,80,69,90,94 D.90,69,80,46,21,32,94,40 答案：C 解析：插入排序的原理是将第i 个数插入到已经排列好的数据中，因此原序列越有序，比较次数越少 4.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？ A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率 B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率 C.正确率、召回率和 F 值取值都在 0 和 1 之间，数值越接近 0 ，查准率或查全率就越高 D.为了解决准确率和召回率冲突问题，引入了 F1 分数答案：C 解析：对于二类分类问题常用的评价指标是精准度（precision ）与召回率（recall ）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4 种情况出现的总数分别记作： TP——将正类预测为正类数 FN——将正类预测为负类数 FP——将负类预测为正类数 TN——将负类预测为负类数由此：精准率定义为：P = TP / (TP + FP) 召回率定义为：R = TP / (TP + FN) F1 值定义为： F1 = 2 P R / (P + R) 精准率和召回率和 F1 取值都在 0 和 1 之间，精准率和召回率高，F1 值也会高，不存在数值越接近 0 越高的说法，应该是数值越接近 1 越高。 5.Naive Bayes 是一种特殊的 Bayes 分类器,特征变量是 X,类别标签是 C,它的一个假定是:() A.各类别的先验概率 P(C)是相等的 2 B.以 0 为均值，为标准差的正态分布 2 C.特征变量之间是相互独立的 D.P(X|C)是高斯分布答案：C 解析：朴素贝叶斯的条件就在于假设每个变量相互独立 6.下列不是 SVM 核函数的是： A.多项式核函数 B.logistic 核函数 C.径向基核函数 D.Sigmoid 核函数答案：B 解析： SVM 核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA 核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及 Sigmoid 核函数 7.(多选)数据清理中，处理缺失值的方法是? A.估算 B.整例删除 C.变量删除 D.成对删除答案：A,B,C,D 解析：数据清理中，处理缺失值的方法有两种：删除法： 1 ）删除观察样本 2 ）删除变量：当某个变量缺失值较多且对研究目标影响不大时，可以将整个变量整体删除 3 ）使用完整原始数据分析：当数据存在较多缺失而其原始数据完整时，可以使用原始数据替代现有数据进行分析