大数据技术平台解决方案.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
共 NUMPAGES 89页 第 PAGE 19页 技术方案 项目背景 建设背景 媒立方项目分为大数据平台和传播服务平台两部分,通过利用大数据的技术和计算框架,形成基于全网重点内容的数据仓库以及集团用户阅读行为数据库,并在此基础上进一步发展出适应传统媒体和新媒体融合发展的智能大数据服务体系;同时通过整合打通报刊、网站、APP、微博、微信等的采编发布体系,结合智能大数据服务体系,最终形成适应传统媒体和互联网媒体融合发展的内容生产传播服务平台。 设计目标 媒立方项目(大数据平台)由内容资源库、用户阅读行为数据库、智能分析服务系统三个部分构成。本项目要求实现对集团媒体资源、国内重要媒体数据资源和UGC资源的统一整合,运用先进的大数据存储计算能力、自然语言分析以及机器学习等技术,建立一个完整的、专业的、易扩展、易管理、规范的内容资源库系统。系统要求收集集团内容产品线上用户的阅读行为,形成基于集团用户通行证标识体系和基于社会用户的阅读行为数据库。最后基于内容资源库和用户阅读行为数据库形成汇集多种智能分析服务的平台,融合在各类媒体形态的内容创作、发布、传播、评估等环节中,该平台相应的服务功能需同时具备集团媒体业务系统和外部机构用户对象的服务能力。 项目需求理解与分析 总体需求 对互联网微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等网站类型进行实时监测,通过系统分析引擎提取互联网网站新闻媒体信息,为新闻、报刊发布提供信息依据。 同时采集的互联网大数据可与其他内部系统进行数据调用,整合分析等。 功能需求 互联网大数据采集需求 可以按照逻辑关键词的筛选能对微博、新闻网站、微信公众号、论坛、数字报刊、移动新闻APP等不同类型网站按照事件或者新闻类型进行关键词信息抽取,并对不同类型新闻或者舆情数据进行分类管理统计。 内容资源库需求 能实现对集团媒体生产数据、互联网媒体发布的数据、部分UGC的数据以及相关内容的用户反馈互动数据;经过人工和自动的数据清洗后,形成基于内容可靠性分类、地域分类、舆论场分类这三个维度划分开的内容标签体系;并将在此基础上将内容进行领域划分和主题层次的抽取;能为智能分析服务系统提供数据来源和相关支撑。 用户阅读行为数据库需求 用户阅读行为数据库通过收集集团旗下媒体的线上用户阅读点击行为(含通行证用户和社会(匿名)用户两类),利用大数据计算引擎结合内容仓库的标签体系进行兴趣标签的快速迭代更新,建立用户阅读行为数据库,形成用户阅读兴趣画像、时序传播画像、媒体影响力画像等模型,为智能分析服务系统提供有力的数据支撑。 智能分析服务需求 对内容资源库和用户阅读行为数据库数据进行整合分析,以某单位业务为基础,对整合数据进行多角度分析和统计,同时以不同风格的图表进行展示,为媒立方传播服务提供服务,并能提供外部机构用户对接开放API接口服务。 系统维护 系统具有用户组群、角色、功能模块等权限管理和等级划分,能合理的对系统进行访问控制。 性能需求 内部新闻线索(新闻爆料)分钟级别数据同步; 微信公号、网站、论坛等平均20分钟以内; 数字报刊60分钟以内; 新浪微博100万全国重点用户平均15分钟以内; 省内活跃用户平均60分钟; 社交媒体官方热点等辅助信息平均15分钟以内; 数据计算:满足PB级别数据量的离线大数据计算要求; 内容仓库的访问并发要求:不低于5000用户。 初期满足350万(250万PCweb和100万APP用户)日活跃线上用户的实时计算分析能力; 提供PB量级的海量离线大数据和350万日活跃用户智能推荐能力; 提供不小于5000用户并发访问和计算请求处理能力;提供每日累计百万次的API服务请求能力。 业务需求 数据整合需求 具有良好的API接口扩展性,能与其他系统进行数据衔接,能通过现有数据进行数据整合调用。 其他需求 可扩展性需求 由于互联网系统具有技术业务更新和发展迅速的特点,系统应具有良好的扩展性,以保证在可预估的数年内系统仍能适应业务需求,扩展性包括信息监测覆盖范围灵活扩展、大数据存储可扩展、应用功能无缝扩展及硬件可平行扩展等扩展性需求。 系统安全性需求 由于信息技术的飞速发展,各种木马、病毒等严重威胁着信息数据的安全。因此,系统必须支持对机密数据的安全保护,防止机密数据窃取外露,因此系统必须支持对敏感数据进行加密处理,确保数据传输的安全性。 在容灾方面,系统需支持数据冗余备份,确保硬件故障后也能在短时间内进行恢复等。 高性能及稳定性需求 互联网数据监测。往往在舆情事件爆发时更能体现其业务应用价值,将出现新闻数据暴增的情况,在系统性能及稳定性方面,系统需保持良好的运行状态并提供高性能的服务。确保系统能够快速、精准、全面地采集互联网中关于新闻或者舆情事件数据,并对相关信息进行分析,掌握整

文档评论(0)

菜心 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档