百度(数据挖掘工程师)笔试题目.docVIP

下载本文档

17
0
约小于1千字
约 3页
2021-01-19 发布于四川
举报
版权申诉

百度(数据挖掘工程师)笔试题目.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

百度(数据挖掘工程师)笔试题目导语：了百度(数据挖掘工程师)题目，欢迎阅读！一. 简答题 1. new 和 malloc 的区别。 2. hash冲突是指什么?怎么解决?给两种方法，写出过程和优缺点。 3. 命中的概率是 0.25，若要至少命中一次的概率不小于 0.75，则至少需要几次? 二. 算法设计题 1. 用C/C++写一个归并排序。数据结构为struct Node{int v; Node *next}; 接口为 Node * merge_sort(Node *); 2. 设计S型层次遍历树的算法，比如根节点是第一层，第二层从左至右遍历，第三层从右至左遍历，第四层再从左至右遍历，以此类推。举例：应依次输出 1 2 3 6 5 4 7 8 9。 3. 一个url文件，每行是一个url地址，可能有重复。 (1)统计每个url的频次，设计函数实现实现。 (2)设有10亿url，平均长度是20，现在机器有8G内存，怎么处理，写出思路。三. 系统设计题自然语言处理中的`中文分词问题，前向最大匹配算法(FMM)。注：题目举例说明了FMM的基本思想。 (1)设计字典的数据结构 struct dictnote。 (2)用C/C++实现FMM，可选接口为 int FMM(vectoriLetters, dictnode *iRoot, vector*oResults); 其中 iLetters 为待分词的句子，比如 {“小”，“明”，“今”，“天”，“买”，“了”，“i”，“p”，“o”，“n”，“e”，“6”}， iRoot 是字典， oResults 保存输出结果，即分词的位置。也可以自己设计接口。 (3)收集了一些手机品牌的字典，如{iphone, 诺基亚}。现在要求查找包含这些手机品牌的网页，比如包含 iphone6, 诺基亚 9973 等。怎么修改FMM实现这个功能，可以写伪代码。模板,内容仅供参考