- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据面试宝典
大数据面试宝典
智游大数据4期就业取得了可喜的成绩,但是这篇文章的意义就是定心丸。
大数据涉及方向较多,本文以大数据算法为主。共包括以下五方面:
机器学习、大数据相关岗位的职责
面试问题
答题思路
准备建议
总结
大数据算法相关岗位的职责
由于各个企业对这大数据类岗位的命名可能有所不同,比如数据挖掘/自然语言处理/机器学习算法工程师,有的简称算法工程师,还有的称为搜索/推荐算法工程师等,甚至有的并入后台工程师的范畴,所以同学们在投简历时还要视岗位得具体要求而定。
1、平台搭建类
数据计算平台搭建,基础算法实现,当然,要求支持大样本量、高维度数据,所以可能还需要底层开发、并行计算、分布式计算等方面的知识;
2、算法研究类
1)文本挖掘,如领域知识图谱构建、垃圾短信过滤等;
2)推荐,广告推荐、APP 推荐、题目推荐、新闻推荐等;
3)排序,搜索结果排序、广告排序等;
4)广告投放效果分析;
5)互联网信用评价;
6)图像识别、理解。
3、数据挖掘类
商业智能,如统计报表;
用户体验分析,预测流失用户。
下面先介绍一些面试中可能会遇到的一些问题,然后谈一谈答题思路和面试心理准备上的一些建议。
面试问题
1、你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法?
2、你熟悉的机器学习/数据挖掘算法主要有哪些?
3、你用过哪些机器学习/数据挖掘工具或框架?
4、基础知识
A、无监督和有监督算法的区别?
B、SVM 的推导,特性?多分类怎么处理?
C、LR 的推导,特性?
D、决策树的特性?
E、SVM、LR、决策树的对比?
F、GBDT 和 决策森林 的区别?
G、如何判断函数凸或非凸?
H、解释对偶的概念。
I、如何进行特征选择?
J、为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
K、介绍卷积神经网络,和 DBN 有什么区别?
L、采用 EM 算法求解的模型有哪些,为什么不用牛顿法或梯度下降法?
M、用 EM 算法推导解释 Kmeans。
N、用过哪些聚类算法,解释密度聚类算法。
O、聚类算法中的距离度量有哪些?
P、如何进行实体识别?
Q、解释贝叶斯公式和朴素贝叶斯分类。
R、写一个 Hadoop 版本的 wordcount。
5、开放问题
A、给你公司内部群组的聊天记录,怎样区分出主管和员工?
B、如何评估网站内容的真实性(针对代刷、作弊类)?
C、深度学习在推荐系统上可能有怎样的发挥?
D、路段平均车速反映了路况,在道路上布控采集车辆速度,如何对路况做出合理估计?E、采集数据中的异常值如何处理?
F、如何根据语料计算两个词词义的相似度?
G、在百度贴吧里发布 APP 广告,问推荐策略?
H、如何判断自己实现的 LR、Kmeans 算法是否正确?
I、100亿数字,怎么统计前100大的?
……
答题思路
1、用过什么算法?
A、最好是在项目/实习的大数据场景里用过,比如推荐里用过 CF、LR,分类里用过 SVM、GBDT;
B、一般用法是什么,是不是自己实现的,有什么比较知名的实现,使用过程中踩过哪些坑;
C、优缺点分析。
2、熟悉的算法有哪些?
A、基础算法要多说,其它算法要挑熟悉程度高的说,不光列举算法,也适当说说应用场合;
B、面试官和你的研究方向可能不匹配,不过在基础算法上你们还是有很多共同语言的,你说得太高大上可能效果并不好,一方面面试官还是要问基础的,另一方面一旦面试官突发奇想让你给他讲解高大上的内容,而你只是泛泛的了解,那你就懵逼了。
3、用过哪些框架/算法包?
A、主流的分布式框架如 Hadoop,Spark,Graphlab,Parameter Server 等择一或多使用了解;
B、通用算法包,如 mahout,scikit,weka 等;
C、专用算法包,如 opencv,theano,torch7,ICTCLAS 等。
4、基础知识
A、高频话题是?SVM、LR、决策树(决策森林)和聚类算法,要重点准备;
B、算法要从以下几个方面来掌握
a.产生背景,适用场合(数据规模,特征维度,是否有 Online 算法,离散/连续特征处理等角度);
b.原理推导(最大间隔,软间隔,对偶);
c.求解方法(随机梯度下降、拟牛顿法等优化算法);
d.优缺点,相关改进;
e.和其他基本方法的对比;
C、不能停留在能看懂的程度,还要
f.对知识进行结构化整理,比如撰写自己的 cheet sheet,我觉得面试是在有限时间内向面试官输出自己知识的过程,如果仅仅是在面试现场才开始调动知识、组织表达,总还是不如系统的梳理准备;
g.从面试官的角度多问自己一些问题,通过查找资料总结出全面的解答,比如如何预防或克服过拟合。
开放问题
A、由于问题具有综合性和开放性,所以不仅仅考察对大数据算法的了解,还需要足够的实
文档评论(0)