大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdfVIP

大规模进行RSS聚合和网站下载在科学研究中的初步应用.pdf

  1. 1、本文档共78页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大科学大数据理念的初步实践 一大科学大数据的基本概念 二基于RSS的抓取 三整站下载 四数据的整合 五应该注意的其他问题 崔克俊 QQ:372948992 CUIKEJUN@QQ.COM13681445347 个人博客:/tsgxsjl 大数据系统的整体概览 一前言RSS聚合案例商业应用Top7News /node/1938242 http://www.top7news.gr RSS聚合案例商业应用 中华书局网上书店 Rss聚合案例知识分享Drupal planet /planet Rss聚合案例知识分享Wordprss planet RSS聚合案例科学研究高能物理所高能物 理信息监控 我们也可以做大数据相关RSS聚合 /rss/ 重点涉及的几款软件 一大科学大数据的基本概念 /wiki/大科学 大科学(Big Science,Megascience,Large Science )一般是指投资大,多学科交叉的大型的基 础科学研究项目,目前还没有一个确切的定义。 大科学需要大量的资金,实验设备昂贵复杂,研究目 标宏大。因此多为国际合作的形式进行。 一大科学大数据的基本概念 大数据/wiki/大数据 (英语: Big data[1][2] ),或称巨量数据、海量数据、大资料, 指的是所涉及的数据量规模巨大到无法通过人工,在 合理时间内达到截取、管理、处理、并整理成为人类 所能解读的信息。 大数据的常见特点是4V :Volume、Velocity、 Variety、Veracity (数据量大、输入和处理速度快、 数据多样性、价值密度低)。 二 RSS抓取 二 RSS抓取 2.1 RSS是什么以及为什么要做RSS抓取 2.2 科研院所的RSS举例 2.3 技术实现  2.3.1 RSS的组织和抓取  2.3.2 RSS的检索和主动推送 二 RSS抓取 2.4 实现技术介绍 2.4.1 Drupal 2.4.2 Apache Solr 2.4.3 PubSubHubbub 2.4.4 open search feed 2.4.5 Yahoo pipes 2.1 RSS是什么以及为什么要做RSS抓取 2.1.1 定义 (Really Simple Syndication“聚合真的很简单”就是RSS 的英文原意。把新闻标题、摘要(Feed)、内容按照用 户的要求,“送”到用户的桌面就是RSS的目的。 2.1.2 RSS优点  (1) 多样性、个性化信息的聚合  (2) 信息发布的时效强、成本低廉  (3) 无“垃圾”信息和信息量过大的问题  (4) 没有病毒邮件的影响  (5) 本地内容管理便利 2.1.3 为什么要做RSS抓取  Google Reader  RSS桌面阅读器 2.2 科研院所的RSS举例   机构新闻  1.1 news  1.2 twitter  /Ames_Laboratory  /1/statuses/user_timeline.rss?screen_name=Ames_Laborat ory  1.33 youtube  /user/AmesLaboratory  /feeds/base/users/AmesLaboratory/uploads?alt=rss v=2orderby=publishedclient=ytapi-youtube-profile 2.2 科研院所的RSS举例  1.5 flickr  /photos/ames_laboratory/  /services/feeds/photos_public.gne?idN06 lang=zh-hkformat=rss_200   1.6 blog  / 2.2 科研院所的RSS举例  .hk/news?hl=zh- CNnewwindow=1safe=strictq=Argonne+National+Laboratorybav=on .2,or.r_gc.r_pw.biw=1280bih=899um=1ie=UTF-8output=rss  /article-feed/1 2.3 RSS抓取在某单位的成功应用 2.3.1 项目背景及实际效果图 2.3

文档评论(0)

7号仓库 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档