媒立方项目[大数据平台]2014.12.30ForCJ.docxVIP

下载本文档

1
0
约5.4千字
约 10页
2017-06-09 发布于北京
举报
版权申诉

媒立方项目[大数据平台]2014.12.30ForCJ.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

媒立方项目（大数据平台）技术指标项目概述媒立方项目分为大数据平台和传播服务平台两部分，通过利用大数据的技术和计算框架，形成基于全网重点内容的数据仓库以及集团用户阅读行为数据库，并在此基础上进一步发展出适应传统媒体和新媒体融合发展的智能大数据服务体系；同时通过整合打通报刊、网站、APP、微博、微信等的采编发布体系，结合智能大数据服务体系，最终形成适应传统媒体和互联网媒体融合发展的内容生产传播服务平台。项目目标媒立方项目（大数据平台）由内容资源库、用户阅读行为数据库、智能分析服务系统三个部分构成。本项目要求实现对集团媒体资源、国内重要媒体数据资源和UGC资源的统一整合，运用先进的大数据计算存储能力、自然语言分析以及机器学习等技术，建立一个完整的、专业的、易扩展、易管理、规范的内容资源库系统；同时收集集团内容产品线上用户的阅读行为，形成基于集团用户通行证标识体系和基于匿名用户的用户阅读行为数据库；最后基于内容资源库和用户阅读行为数据库形成包含多种服务的智能分析服务系统，融合在各类媒体形态的内容创作、发布、传播、评估等环节中；该平台相应的服务功能需同时具备满足集团媒体业务系统和外部机构用户的两类服务能力。项目需求内容资源库内容资源库负责收集集团媒体生产数据、互联网媒体发布的数据、部分UGC的数据以及相关内容的用户反馈互动数据；经过人工和自动的数据清洗后，形成基于内容可靠性分类、地域分类、舆论场分类这三个维度划分开的内容标签体系；并将在此基础上将内容进行领域划分和主题层次的抽取；为智能分析服务系统提供数据来源和相关支撑。系统包含以下关键需求，请根据需求设计详细方案，如有必要，可以通过原型展现相关设计思路：采集和迁移 1、设计稳定合理的全局采集对象列表遍历方案设计稳定高效的国内互联网采集对象遍历方案，用以找出最适合的相关数据资源对象初始列表；同时具备足够的操作性和维护性方便后期的动态列表维护等工作；其中省内遍历颗粒度需要达到县市一级，全国颗粒度以综合领域和垂直领域影响力代表性的采集对象为目标。 2、设计稳定的数据采集和入库方案依据采购方认可的全网遍历出的媒体源列表（300万新浪微博账号——100万全局账号和200万浙江活跃、10万微信公众账号、5000个网站论坛、1000个数字报刊、10个移动新闻APP客户端、定向主流微视频网站、定向专业图片类网站、定向百度贴吧内容、集团内部生产相关数据等）进行多维度数据的采集（除内容和内容相关参数之外，微博还应包含人物关注关系数据、局部账号的转发评论数据等；微信还应包含阅读量、点赞量等；网站、数字报刊以及移动新闻app包含所属频道等；集团内部生产相关数据还需要依据内部生产流程和外部传播过程拿到所有除以上维度外的其他数据）、清洗和入库。其中数字报刊的图片、部分定向数据来源的图片、集团内部生产相关数据富媒体元素需采集到本地，其余媒体类型的富媒体元素只需采集相关链接；基于以上采集和入库时间（见下文性能要求中的描述）的要求，设计合理稳定高效的数据采集方案，确保数据快速稳定的进入内容资源库。数据加工 1、数据加工服务设计三轮数据加工服务体系，将非结构化数据通过大数据技术和自然语义分析完成结构化处理。首轮ETL通过一定的人工参与达到如下目标：按照数据来源新闻可靠性（政经党媒、商业媒体、机构自媒体、一般UGC）、地域性（省份地区、省内县市）、舆论立场（官方媒体立场、商业机构立场、草根网民立场）三个维度进行数据分类；第二轮ETL依据采集的数据和自然语义分析自动完成领域分类的目标：参照新闻门户网站频道财经、体育、娱乐、汽车、房产、旅游等这个层次的颗粒度；第三轮ETL通过利用深度神经网络和相关大数据计算自动完成文章主题层次的抽取（在领域基础上进一步细分）；通过以上三轮ETL，完成将非结构化的内容数据标签化处理，形成结构化的特征抽取，为后续进一步大数据分析奠定基础。其它要求 1、数据管理中心根据以上内容资源库的需求建立面向管理员使用的数据管理中心；实现数据的报警、监控、审计、安全、维护等管理功能；需考虑移动端使用场景的需求。 2、性能要求数据采集入库时效性要求总体采用分级约定的原则，核心层级的采集目标需实现分钟级实时性响应，其余层级的约定参考如下：集团内部生产相关数据实时采集；内部新闻线索（96068新闻爆料）分钟级别数据同步；微信公号、网站、论坛等平均20分钟以内；数字报刊60分钟以内；新浪微博100万全国重点用户平均15分钟以内和省内活跃用户平均60分钟；数据计算要求：满足PB级别数据量的离线大数据计算要求；内容仓库的访问并发要求：不低于5000用户。 3、便捷性和扩展性要求设计合理的架构满足后期数据源扩展、数据分类扩充、ETL过程变化等引起的平台迭代需求。 4、数据安