- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聘才网『总结』邵玉:浩数据发掘口试题总结2021 年 12 月 12 日 18:38 去源:聘才网微博博客 微信我有话说 (10086 人到场 )【聘才网】『年末总结』邵玉浩:数据发掘口试题总结给定 a、b 两个文件,各存放50 亿个 url ,每个
聘才网『总结』邵玉:浩数据发掘口试题总结
2021 年 12 月 12 日 18:38 去源:聘才网
微博
博客 微信
我有话说 (10086 人到场 )
【聘才网】『年末总结』邵玉浩:数据发掘口试题总结
给定 a、b 两个文件,各存放
50 亿个 url ,每个 url
1.
各占 64 字节,内存限定为
4G ,让你找出
a、 b 文件配合
得 url?
方案 1 :可以预计每个文件安得巨细为
50G × 64=320G ,远宏大于内存限定得
4G ;以是不大概
将其完全加载到内存中处置;思量接纳分而治之得要领;
s 遍历文件
a,对每个
url 求取,然后凭据所取得得值
将 url 分别存储到
1000 个小文件 (记为 )中;如许每个小文
件得约莫为
;
300M
s 遍历文件 b ,接纳与
a 雷同得方法将
url 分别存储到
1000 各小文件 (记为 );如许处置后,全部大概雷同得
url
都在对应得小文件
()中,不对应得小文件不大概有雷同得
url ;然后我们只要求出
对小文件中雷同得
url 即可;
1000
s 求每对小文件中雷同得
url 时,可以把此中一个小文
件得 url 存储到
hash_set 中;然后遍历另一个小文件得每
个 url ,看其为否在刚刚构建得
hash_set 中,假如为,那
么就为配合得
url ,存到文件内里就可以呢;
方案 2 :假如答应有肯定得错误率,可以利用Bloomfilter , 4G 内存大概可以表现340 亿 bit ;将此中一个文件中得url 利用 Bloom filter映射为这亿bit ,然后340挨个读取别的一个文件得url ,查抄为否与,Bloom filter假如为,那么该url 应该为
方案 2 :假如答应有肯定得错误率,可以利用
Bloom
filter , 4G 内存大概可以表现
340 亿 bit ;将此中一个文
件中得
url 利用 Bloom filter
映射为这
亿
bit ,然后
340
挨个读取别的一个文件得
url ,查抄为否与
,
Bloom filter
假如为,那么该
url 应该为配合得
url( 留意会有肯定得错
误率 );
2. 有 10 个文件,每个文件
1G ,每个文件得每一行存
放得都为用户得
query ,每个文件得
都大概重复;
query
要求你凭据
得频度排序;
query
方案 1 :
s 次序读取
个文件,凭据
hash(query) 得效果将
10
query 写入到别的
10 个文件 (记为 )中;如许新天生得文件
每个得巨细约莫也
1G( 假设 hash 函数为随机得
);
s 找一台内存在
2G 左右得呆板,依次对用
去统计每个
出现
hash_map(query, query_count)
query
得次数;利用快速
/ 堆 / 归并排序凭据出现次数举行排序;
将排序好得
与对应得
输出到文件中;
query
query_cout
如许得到呢
10 个排好序得文件
(记为 );
s 对这
10 个文件举行归并排序
(内排序与外排序相结
合 );
方案 2 :
一般 query 得总量为有限得,只为重复得次数比拟多罢了,大概对付全部得,一次性就可以参加到内存query呢;如许,我们就可以接纳trie 树/hash_map等直接去统计每个query 出现得次数, 然后按出现次数做快速/ 堆 /归并排序就可以呢;方案 3
一般 query 得总量为有限得,只为重复得次数比拟多
罢了,大概对付全部得
,一次性就可以参加到内存
query
呢;如许,我们就可以接纳
trie 树/hash_map
等直接去
统计每个
query 出现得次数, 然后按出现次数做快速
/ 堆 /
归并排序就可以呢;
方案 3 :
与方案
1 雷同,但在做完
hash ,分成多个文件后,可
以交给多个文件去处置,接纳漫衍式得架构去处置
(比方
,末了再举行归并;
MapReduce)
3. 有一个
1G 巨细得一个文件,
内里每一行为一个词,
词得巨细不凌驾
16 字节,内存限定巨细为
1M ;返回频
数最高得
100 个词;
方案
1 :次序读文件中,对付每个词
x,取,然后凭据
该值存到
5000 个小文件 (记为 )中;如许每个文件大概为
200k 左右;假如此中得有得文件凌驾呢
1M 巨细,仍可
以凭据雷同得要领继承往下分,知道剖析得到得小文件
您可能关注的文档
最近下载
- 地理七上.doc VIP
- 麦克维尔自然冷却风冷螺杆冷水机组 安装使用手册(1).pdf VIP
- 《职业生涯规划与就业指导》高职大学生就业指导全套教学课件.pptx
- 竣工图绘制合同协议.docx VIP
- 浙江省温州市2022-2023学年高一上学期期末教学质量统一检测政治试题.pdf VIP
- 匹克球理论考试试题库及答案.docx VIP
- 2024年福建省龙岩市新罗区西城街道招聘社区工作者真题带答案详解.docx VIP
- 北京市东城区东直门中学2024-2025学年七年级上学期分班考数学试卷.docx VIP
- 2024-2025学年人教版初中体育与健康九年级(全一册)教学设计.docx
- 冬季防寒防冻培训.pptx VIP
原创力文档


文档评论(0)