传统出版业与互联网等新兴产业的数据特征.docxVIP

下载本文档

4
0
约5.36千字
约 8页
2021-08-07 发布于浙江
举报
版权申诉

传统出版业与互联网等新兴产业的数据特征.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

? ? ? ? ? 传统出版业与互联网等新兴产业的数据特征 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 传统出版业与互联网等新兴产业的数据特征都有哪些，它们是否相同？这些特征各自的优缺点是什么？它们之间又有哪些差别？这些差别是否可以进行转化？本章将具体介绍传统出版业和互联网等新兴产业各自的数据特征以及它们之间的异同。 · 传统出版业内容数据居多，知识属性高传统出版业在长期发展过程中，积累了大量的内容资源数据，这些内容资源数据是经过了严格筛选的，所以知识属性非常高。目前，我国大部分出版单位已对本单位的内容资源数据进行了数字化、碎片化和数据化等加工。这些都将是出版单位未来发展大数据和提供知识服务的基础和根本。 · 互联网大数据多为实时产生，数据特征明显关于大数据有多种定义，有些大同小异，有些则表达角度不同。本书采用麦肯锡的定义，即一种规模大到在获取、存储、管理和分析方面大大超出传统数据库软件工具能力范围的数据集合，它具有海量的数据规模、快速的数据流转、多样的数据类型、价值密度低、数据真实性五大特征。本质上，大数据为我们观察世界提供了一种全新思维。 · 传统出版业数据与互联网大数据具有明显的差异性传统出版业数据与互联网大数据在数据规模、数据类型、数据的真实性、数据的时效性、数据用途、数据产生方式、用户信息掌握程度等方面具有较为明显的差异。第一节传统出版业数据特征传统出版业在生产过程中积累的数据主要有内容数据居多、以静态数据为主、数据结构相对统一和数据知识属性高四大特征。一内容数据居多从第一章的统计分析数据来看，出版业虽然每年都会产生一定量的数据，但这些数据大部分是纸质出版物上的内容数据，首先它不是基于互联网的实时交易数据，其次它也不是实时的用户行为数据，它与今天我们多数人认知的基于互联网的大数据截然不同。出版业更多的是内容资源数据，包括文本、图片和音视频等，拥有大量的内容资源数据是出版业的特点所在。目前，大多数出版机构已对这些内容资源数据进行了数字化、碎片化和数据化，这将是出版机构发展大数据和提供知识服务的基础和根本。二以静态数据为主出版业内容生产流程相对复杂并具有一定的周期性，属于非实时性数据，所以不具有高速生成性和高速更新的特点。比较而言，传统出版中的报刊，除自办发行的报刊外，绝大多数发行量大的报刊都是通过邮局订阅发行的，通过邮局订阅的用户，其基本信息不仅过于简单（性别、年龄、阅读时间、阅读时长等内容未知），而且报社和杂志社也不完全掌握订阅用户的基本信息数据，更谈不上进行用户行为分析了。即使是自办发行报刊，能得到订阅用户的基本信息数据，由于其用户数量相对有限，所掌握的用户信息几乎都是固定不变的，而非实时产生。图书则主要通过新华书店和二渠道书商发行，其终端用户的行为数据也无法掌握。三数据结构相对统一传统出版业通常有内容资源数据（包括文本、图片和音视频等）、发行数据和读者数据等。这些数据都产生于出版单位自身，并且由于出版业精英式的内容生产机制，出版物内容通常都是按照一定的标准生产出来的，其数据结构完整、统一，内容表达符合语法规范，且由于数据来源的单一性，基本不存在异构和混乱的数据。四数据知识属性高出版业具有严格的内容评价与筛选机制，如“三审三校制”等，没有经过“三审三校”的稿件是无法出版的；而互联网出版则通常是通过敏感词过滤软件来进行内容筛选的，内容质量参差不齐。在内容质量上，传统出版单位的出版物更加有保障。也正是这种严格的内容审查与编校机制，使得传统出版物具有较高的价值含量，并具有较集中的知识属性，这是互联网上所产生的内容无法比拟的。第二节互联网大数据特征目前，大多数研究者普遍认为大数据有5V特征，即海量的数据规模（Volume）、快速的数据流转（Velocity）、多样的数据类型（Variety）、价值密度低（Value）、数据真实性（Veracity）五大特征（见图3-1）。本质上，它为我们观察世界提供了一种全新思维。图3-1 大数据特征一海量的数据规模大部分科研人员认为数据量的巨大表现为存储量和计算量巨大。目前达到EB级容量的大数据出现在众多领域，据麦肯锡估计，2010年全球企业硬盘上存储了超过7EB的新数据，消费者在电脑等设备上存储的新数据超过了6EB（相当于美国国会图书馆存储数据的4000多倍）。另根据IDC的研究，2012年一年全世界创造和复制的数据有2.8ZB之多。[1]著者认为，大数据的“大”可以理解为名词而非形容词，它代表一个数据级别，而非简单形容数据之多。也就是说，只有到一定级别的数据，才能称之为“大数据”，如EB级。[2] 二快速的数据流转快速的数据流转指数据的实时快速生成、更新与累积，如互联网公司服务器上实时生成的日志、社交网