- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF
本期话题
http: //
基于MapReduce模式的NSTL用户热点检索词
与中西文期刊热点关键词的对比分析*
□ 郝春云 / 中国科学技术信息研究所 北京 100038
摘要:文章简要介绍了MapRedu ce模式。基于2010年到2012年7月N STL 用户检索日志进行分析,采用
MapReduce模式,针对用户的检索行为以及热点检索词进行分析,并与当年出版的文献的关键词进行比较,
分析用户需求与文献提供的差异,旨在及时掌握用户的需求变化,为系统的功能完善、未来发展及文献采购
提供参考依据。
关键词:N STL ,检索词,关键词
DOI :10.3772/j .issn .1673—2286.2012.11.005
[2]
1 背景 用于大规模数据集的并行运算 。 外的另一个名字上去。化简操作工
概念“M ap (映射)”和“R e du c e 作方式很类似,但是由于化简操作
[1]
N STL三期系统 自2010年4月 (化简)”,及它们的主要思想,都 的并行能力较差,主节点会尽量把
正式运行以来,累积了大量的日志 是从函数式编程语言借来的,还有 化简操作调度在一个节点上,或者
信息。针对这些日志进行分析,了解 从矢量编程语言借来的特性。当 离需要操作的数据尽可能近的节
[3]
用户需求,能够及时掌握用户的需 前的软件实现是指定一个Map (映 点上 。
求变化,为系统的功能完善、文献 射)函数,用来把一组键值对映射 MapReduce能将大数据问题分
采购及未来发展提供重要的参考 成一组新的键值对,指定并发的 解成多个子问题,将它们分配到成
依据。据笔者统计,从2010年4月1日 R edu c e (化简)函数,用来保证所 百上千个处理节点之上,然后将结
到2012年6月30 日,N STL 向用户提 有映射的键值对中的每一个共享相 果汇集到一个小数据集当中,从而
[2]
供检索服务7981580次。 同的键组 。 更容易分析得出最后的结果。因此
由于数据量较大,在直接用 M ap R e du c e通过把对数据集 Google MapReduce模式被广泛应
数据库进行统计时,容易出现缓存 的大规模操作分发给网络上的每 用于大数据的分析处理中。
溢出、结果集耗尽、IO写入错误等 个节点实现可靠性;每个节点会周 本文中利用MapReduce模式的
无法进行统计的情况,因此采用 期性地把完成的工作和状态的更新 算法过程如下:
MapRedu ce模式进行了统计,先对 报告回来。如果一个节点保持沉默 (1)检索词和关键词文件切
数据进行切分,然后合并统计结果 超过一个预设的时间间隔,主节点 分:MapReduce对检索日志文件按
的方式来进行。 记录下这个节点状态为死亡,并把 行进行自动切分,并将数据分发到
分配给这个节点的数据发到别的节 每个M ap 任务,其中k ey 值为I D ,
2 采用MapReduce算法 点。每个操作使用命名文件的不可 value值为count
您可能关注的文档
最近下载
- 违章驾驶员交通安全培训精品课件.pptx
- Panasonic松下电器卫浴产品 电子坐便器CH2N615WSC_2N625GYC用户手册.pdf
- 人教部编版四年级下册语文第五单元教案设计(含交流平台习作例文和习作教案).doc
- 小学数学_青岛版六年级下册数学智慧广场“鸡兔同笼”问题教学设计学情分析教材分析课后反思.doc
- 2023年南京特殊教育师范学院特殊教育专业《普通心理学》期末试卷A(有答案).docx VIP
- 猪的信号(育肥猪).doc
- 机械设计基础(第六版)杨可桢课后习题答案.pdf
- 紧密型县域医疗卫生共同体消毒供应中心运营指南(2020年版 医联体建设).docx
- 《潍坊港总体规划》报告.doc
- 巧用仪式感提升高中阶段班级管理.docx VIP
文档评论(0)