（完整版）『总结』邵玉浩数据挖掘试题总结.docxVIP

下载本文档

1
0
约7.52千字
约 12页
2021-06-22 发布于四川
举报
版权申诉

（完整版）『总结』邵玉浩数据挖掘试题总结.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聘才网『总结』邵玉：浩数据发掘口试题总结2021 年 12 月 12 日 18:38 去源：聘才网微博博客微信我有话说 (10086 人到场 )【聘才网】『年末总结』邵玉浩：数据发掘口试题总结给定 a、b 两个文件，各存放50 亿个 url ，每个聘才网『总结』邵玉：浩数据发掘口试题总结 2021 年 12 月 12 日 18:38 去源：聘才网微博博客微信我有话说 (10086 人到场 ) 【聘才网】『年末总结』邵玉浩：数据发掘口试题总结给定 a、b 两个文件，各存放 50 亿个 url ，每个 url 1. 各占 64 字节，内存限定为 4G ，让你找出 a、 b 文件配合得 url? 方案 1 ：可以预计每个文件安得巨细为 50G × 64=320G ，远宏大于内存限定得 4G ；以是不大概将其完全加载到内存中处置；思量接纳分而治之得要领； s 遍历文件 a，对每个 url 求取，然后凭据所取得得值将 url 分别存储到 1000 个小文件 (记为 )中；如许每个小文件得约莫为； 300M s 遍历文件 b ，接纳与 a 雷同得方法将 url 分别存储到 1000 各小文件 (记为 )；如许处置后，全部大概雷同得 url 都在对应得小文件 ()中，不对应得小文件不大概有雷同得 url ；然后我们只要求出对小文件中雷同得 url 即可； 1000 s 求每对小文件中雷同得 url 时，可以把此中一个小文件得 url 存储到 hash_set 中；然后遍历另一个小文件得每个 url ，看其为否在刚刚构建得 hash_set 中，假如为，那么就为配合得 url ，存到文件内里就可以呢；方案 2 ：假如答应有肯定得错误率，可以利用Bloomfilter ， 4G 内存大概可以表现340 亿 bit ；将此中一个文件中得url 利用 Bloom filter映射为这亿bit ，然后340挨个读取别的一个文件得url ，查抄为否与，Bloom filter假如为，那么该url 应该为方案 2 ：假如答应有肯定得错误率，可以利用 Bloom filter ， 4G 内存大概可以表现 340 亿 bit ；将此中一个文件中得 url 利用 Bloom filter 映射为这亿 bit ，然后 340 挨个读取别的一个文件得 url ，查抄为否与， Bloom filter 假如为，那么该 url 应该为配合得 url( 留意会有肯定得错误率 )； 2. 有 10 个文件，每个文件 1G ，每个文件得每一行存放得都为用户得 query ，每个文件得都大概重复； query 要求你凭据得频度排序； query 方案 1 ： s 次序读取个文件，凭据 hash(query) 得效果将 10 query 写入到别的 10 个文件 (记为 )中；如许新天生得文件每个得巨细约莫也 1G( 假设 hash 函数为随机得 )； s 找一台内存在 2G 左右得呆板，依次对用去统计每个出现 hash_map(query, query_count) query 得次数；利用快速 / 堆 / 归并排序凭据出现次数举行排序；将排序好得与对应得输出到文件中； query query_cout 如许得到呢 10 个排好序得文件 (记为 )； s 对这 10 个文件举行归并排序 (内排序与外排序相结合 )；方案 2 ：一般 query 得总量为有限得，只为重复得次数比拟多罢了，大概对付全部得，一次性就可以参加到内存query呢；如许，我们就可以接纳trie 树/hash_map等直接去统计每个query 出现得次数，然后按出现次数做快速/ 堆 /归并排序就可以呢；方案 3 一般 query 得总量为有限得，只为重复得次数比拟多罢了，大概对付全部得，一次性就可以参加到内存 query 呢；如许，我们就可以接纳 trie 树/hash_map 等直接去统计每个 query 出现得次数，然后按出现次数做快速 / 堆 / 归并排序就可以呢；方案 3 ：与方案 1 雷同，但在做完 hash ，分成多个文件后，可以交给多个文件去处置，接纳漫衍式得架构去处置 (比方，末了再举行归并； MapReduce) 3. 有一个 1G 巨细得一个文件，内里每一行为一个词，词得巨细不凌驾 16 字节，内存限定巨细为 1M ；返回频数最高得 100 个词；方案 1 ：次序读文件中，对付每个词 x，取，然后凭据该值存到 5000 个小文件 (记为 )中；如许每个文件大概为 200k 左右；假如此中得有得文件凌驾呢 1M 巨细，仍可以凭据雷同得要领继承往下分，知道剖析得到得小文件