技术需求.doc-中央政府采购网.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
技术需求.doc-中央政府采购网

经济日报社 信息服务定制加工系统 2015年12月 项目背景和目标 为了更好地支撑经济日报集团媒体融合的发展,经济日报拟建设信息服务定制加工系统,该系统需继承报社已有数据和信息化系统的优势,扩展互联网数据的采集能力;全面整合互联网与集团的内容资源的整合使用;突出财经特色,扩展经济日报集团信息服务的能力。 一、建设背景 目前,经济日报社建设的全媒体经济舆情监测与分析系统已经实现对部分重要的网络信息,如重点新闻网站、各大论坛、博客、微博、新闻客户端互联网数据的实时采集,并通过文本挖掘大数据技术,互联网热点新闻线索发现、热事件分析联网数据着业务部门对互联网数据的不断增加数据范围的不断,全媒体舆情系统,平台采集信息采集,优化发的应用功能 信息服务定制加工系统项目将满足更多业务部门对互联网数据的接入需求满足社部门应用的基础上,全媒体舆情系统台位提升为形成互联网经济数据服务运营平台实用性以需求为基础,充分考虑发展需要确定规。安全性提供安全手段防止非法入侵越级操作,。 可靠性成熟和先进性结构设计、配置、管理方式等方面采用先进成熟、实用的。规范性设计所采用的技术和设备应符合国际标准、国家标准和业界标准,为扩展升级、与其系统互联提供良好基础。 开放性和标准化设备的各种接口满足开放和标准化原则。 可扩充和扩展化所有设备不但满足当前需要,并在扩充模块后满足可预见将来需求,保证完成后的在向新技术升级时,能保护现有投资。各功能模块间的耦合度小,以适应业务发展需要,便于系统的继承和扩展。 可管理性易于管理,易于维护,操作简单,易学,易用,便于进行系统配置,很好的监控设备安全性、数据流量、性能等方面。系统应具有良好的结构,各个部分应有明确和完整的定义,使得局部的修改不影响全局和其他部分的结构和运行。 易使用性应用界面、直观,减少菜单层次和不必要的点击过程,使用户一目了然,快速掌握系统操作方法,特别是要符合工作人员的思维方式和工作习惯,方便非计算机专业人员的使用;应提供联机或脱机帮助手段。 扩充信息采集内容 本期项目,将在全媒体舆情项目针对传统网页数据采集的基础上,增加更多重点关注的媒体发布内容的采集,主要包含:媒体官网发布数据(媒体官方网站、公众账号、新闻客户端APP、电子报等)、经济政策法规类数据(政府部委官网发布的信息、政策法规解读类信息)、宏观经济类数据、行业经济类数据、区域经济类数据、经济评论及观点类数据、排行榜和热门专题、境外媒体经济信息、外购数据接入等方面的内容。 配合报社研究院关于金融类产品指数模型的构建,本期项目将增加采集理财、基金、保险等金融产品的产品数据和评论评价数据;采集券商、证券公司、发行机构等相关数据和评论评价数据。 采集性能提升 保证采集内容的时效性。要求原创文章在新闻网站、客户端APP监测、电子报纸、微博监测的时效性要求在为30分钟以内完成采集。通俗的理解为,监测的网站30分钟之前的文章应抓取到本地供系统调用。原创文章在微信公众号监测的时效性要求在一个小时内完成采集。 转载文章在非圈定监测范围内的时效性要求在6个小时内完成采集。 采集功能加强 元搜索采集。可实现百度等搜索引擎的搜索结果数据采集、微博搜索引擎的搜索结果采集入库。 可以采集多种文档信息。除了对各种静态网页和动态网页的采集外,还需要满足采集多种文档,包括txt、doc、xml、ppt、pdf、xls等,要求对上述采集来的文章实现全文检索。满足用户的多种数据需求。 智能的网页分析能力。系统具有智能的网页解析模块,在不使用模板的情况下智能地定位网页正文区域并提取正文,能够对网页进行内容分析和过滤,自动去除广告和其他网站分类导航等其他噪音数据,以及版权、栏目等无用信息;正确率在90%以上。自动识别正文页面,准确提取文章标题、作者、发表时间、正文、评论、转发情况、图片等信息。 导航页和非导航页自动识别技术。系统通过网页分析,判断某一个网页是否是导航页,如果是导航页则在更新时需要重新扫描,如果是非导航页则不需要重新扫描。 重点微信公众号主要指标采集。本期项目,将重点实现指定的微信公众号的阅读数、点赞数、评论信息等内容的采集。 大数据资源池建设 本期项目扩大了互联网数据的采集来源和采集内容,同时接入了报社内部数据及外购外采相关数据,大数据资源池将对这些结构化、非结构化数据进行有效存储与管理,实现大数据存贮、管理和检索的集成平台,以支持信息服务定制加工系统的业务应用,同时为报社融媒体等相关业务提供数据支撑。 1、大数据存储 大数据存储服务提供可扩展的分布式储存平台,能够存储结构化、半结构化及非结构化的海量数据,向上层提供一种稳定可靠、可弹性伸缩的在线数据库服务。防止单点故障的情况产生。使用者可通过API进行存取。支持新增x86服务器的横向扩充,通过软件逻辑确保数据的可靠性

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档