(完整版)『总结』邵玉浩数据挖掘试题总结.docxVIP

(完整版)『总结』邵玉浩数据挖掘试题总结.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聘才网『总结』邵玉:浩数据发掘口试题总结2021 年 12 月 12 日 18:38 去源:聘才网微博博客 微信我有话说 (10086 人到场 )【聘才网】『年末总结』邵玉浩:数据发掘口试题总结给定 a、b 两个文件,各存放50 亿个 url ,每个 聘才网『总结』邵玉:浩数据发掘口试题总结 2021 年 12 月 12 日 18:38 去源:聘才网 微博 博客 微信 我有话说 (10086 人到场 ) 【聘才网】『年末总结』邵玉浩:数据发掘口试题总结 给定 a、b 两个文件,各存放 50 亿个 url ,每个 url 1. 各占 64 字节,内存限定为 4G ,让你找出 a、 b 文件配合 得 url? 方案 1 :可以预计每个文件安得巨细为 50G × 64=320G ,远宏大于内存限定得 4G ;以是不大概 将其完全加载到内存中处置;思量接纳分而治之得要领; s 遍历文件 a,对每个 url 求取,然后凭据所取得得值 将 url 分别存储到 1000 个小文件 (记为 )中;如许每个小文 件得约莫为 ; 300M s 遍历文件 b ,接纳与 a 雷同得方法将 url 分别存储到 1000 各小文件 (记为 );如许处置后,全部大概雷同得 url 都在对应得小文件 ()中,不对应得小文件不大概有雷同得 url ;然后我们只要求出 对小文件中雷同得 url 即可; 1000 s 求每对小文件中雷同得 url 时,可以把此中一个小文 件得 url 存储到 hash_set 中;然后遍历另一个小文件得每 个 url ,看其为否在刚刚构建得 hash_set 中,假如为,那 么就为配合得 url ,存到文件内里就可以呢; 方案 2 :假如答应有肯定得错误率,可以利用Bloomfilter , 4G 内存大概可以表现340 亿 bit ;将此中一个文件中得url 利用 Bloom filter映射为这亿bit ,然后340挨个读取别的一个文件得url ,查抄为否与,Bloom filter假如为,那么该url 应该为 方案 2 :假如答应有肯定得错误率,可以利用 Bloom filter , 4G 内存大概可以表现 340 亿 bit ;将此中一个文 件中得 url 利用 Bloom filter 映射为这 亿 bit ,然后 340 挨个读取别的一个文件得 url ,查抄为否与 , Bloom filter 假如为,那么该 url 应该为配合得 url( 留意会有肯定得错 误率 ); 2. 有 10 个文件,每个文件 1G ,每个文件得每一行存 放得都为用户得 query ,每个文件得 都大概重复; query 要求你凭据 得频度排序; query 方案 1 : s 次序读取 个文件,凭据 hash(query) 得效果将 10 query 写入到别的 10 个文件 (记为 )中;如许新天生得文件 每个得巨细约莫也 1G( 假设 hash 函数为随机得 ); s 找一台内存在 2G 左右得呆板,依次对用 去统计每个 出现 hash_map(query, query_count) query 得次数;利用快速 / 堆 / 归并排序凭据出现次数举行排序; 将排序好得 与对应得 输出到文件中; query query_cout 如许得到呢 10 个排好序得文件 (记为 ); s 对这 10 个文件举行归并排序 (内排序与外排序相结 合 ); 方案 2 : 一般 query 得总量为有限得,只为重复得次数比拟多罢了,大概对付全部得,一次性就可以参加到内存query呢;如许,我们就可以接纳trie 树/hash_map等直接去统计每个query 出现得次数, 然后按出现次数做快速/ 堆 /归并排序就可以呢;方案 3 一般 query 得总量为有限得,只为重复得次数比拟多 罢了,大概对付全部得 ,一次性就可以参加到内存 query 呢;如许,我们就可以接纳 trie 树/hash_map 等直接去 统计每个 query 出现得次数, 然后按出现次数做快速 / 堆 / 归并排序就可以呢; 方案 3 : 与方案 1 雷同,但在做完 hash ,分成多个文件后,可 以交给多个文件去处置,接纳漫衍式得架构去处置 (比方 ,末了再举行归并; MapReduce) 3. 有一个 1G 巨细得一个文件, 内里每一行为一个词, 词得巨细不凌驾 16 字节,内存限定巨细为 1M ;返回频 数最高得 100 个词; 方案 1 :次序读文件中,对付每个词 x,取,然后凭据 该值存到 5000 个小文件 (记为 )中;如许每个文件大概为 200k 左右;假如此中得有得文件凌驾呢 1M 巨细,仍可 以凭据雷同得要领继承往下分,知道剖析得到得小文件

文档评论(0)

橙老师资料铺 + 关注
实名认证
文档贡献者

精选资料欢迎下载

1亿VIP精品文档

相关文档