网站大量收购闲置独家精品文档,联系QQ:2885784924

基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF

基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce模式的NSTL用户热点检索词与-数字图书馆论坛.PDF

本期话题 http: // 基于MapReduce模式的NSTL用户热点检索词 与中西文期刊热点关键词的对比分析* □ 郝春云 / 中国科学技术信息研究所 北京 100038 摘要:文章简要介绍了MapRedu ce模式。基于2010年到2012年7月N STL 用户检索日志进行分析,采用 MapReduce模式,针对用户的检索行为以及热点检索词进行分析,并与当年出版的文献的关键词进行比较, 分析用户需求与文献提供的差异,旨在及时掌握用户的需求变化,为系统的功能完善、未来发展及文献采购 提供参考依据。 关键词:N STL ,检索词,关键词 DOI :10.3772/j .issn .1673—2286.2012.11.005 [2] 1 背景 用于大规模数据集的并行运算 。 外的另一个名字上去。化简操作工 概念“M ap (映射)”和“R e du c e 作方式很类似,但是由于化简操作 [1] N STL三期系统 自2010年4月 (化简)”,及它们的主要思想,都 的并行能力较差,主节点会尽量把 正式运行以来,累积了大量的日志 是从函数式编程语言借来的,还有 化简操作调度在一个节点上,或者 信息。针对这些日志进行分析,了解 从矢量编程语言借来的特性。当 离需要操作的数据尽可能近的节 [3] 用户需求,能够及时掌握用户的需 前的软件实现是指定一个Map (映 点上 。 求变化,为系统的功能完善、文献 射)函数,用来把一组键值对映射 MapReduce能将大数据问题分 采购及未来发展提供重要的参考 成一组新的键值对,指定并发的 解成多个子问题,将它们分配到成 依据。据笔者统计,从2010年4月1日 R edu c e (化简)函数,用来保证所 百上千个处理节点之上,然后将结 到2012年6月30 日,N STL 向用户提 有映射的键值对中的每一个共享相 果汇集到一个小数据集当中,从而 [2] 供检索服务7981580次。 同的键组 。 更容易分析得出最后的结果。因此 由于数据量较大,在直接用 M ap R e du c e通过把对数据集 Google MapReduce模式被广泛应 数据库进行统计时,容易出现缓存 的大规模操作分发给网络上的每 用于大数据的分析处理中。 溢出、结果集耗尽、IO写入错误等 个节点实现可靠性;每个节点会周 本文中利用MapReduce模式的 无法进行统计的情况,因此采用 期性地把完成的工作和状态的更新 算法过程如下: MapRedu ce模式进行了统计,先对 报告回来。如果一个节点保持沉默 (1)检索词和关键词文件切 数据进行切分,然后合并统计结果 超过一个预设的时间间隔,主节点 分:MapReduce对检索日志文件按 的方式来进行。 记录下这个节点状态为死亡,并把 行进行自动切分,并将数据分发到 分配给这个节点的数据发到别的节 每个M ap 任务,其中k ey 值为I D , 2 采用MapReduce算法 点。每个操作使用命名文件的不可 value值为count

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档