大数据更需要先清洗.PDFVIP

  1. 1、本文档共1页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据更需要先清洗

编者的话 大数据更需要先清洗 无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构 各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数 据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。在大数据时 代,若不加强数据清洗,则GIGO (垃圾进,垃圾出)现象会更加严重。 对数据的清洗之后进行分析挖掘的过程就是情报“去粗取精、去伪存真、化零为整、见微 知著”的过程。只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可以让人 放心的、可用于支撑决策的情报。有时决策者似乎只需要一个简单的数,但是为了得到这一个 数,我们需要搜集大量数据并进行有效的分析与处理。例如,《国家中长期科技发展规划纲要 (2006 - 2020)》提到,到2020 年本国人发明专利年度授权量和国际科学论文被引用数均进入 世界前5 位,“5”是一个简单的数,但是要获知是否进入了前5 位,需要很多数据的支撑,包 括时间为轴的纵向数据以及空间为轴的对比数据等。 以数据为基础既是现代科技情报工作的一个基本特征,也是情报学区别于其他一些相邻学 科的鲜明特色。例如,计算机更注重算法与效率,可以用通用的测试数据做文章,即使这些数 据不够真实、不够及时,也不影响测试;而情报学所构建的一些数据基础本身就是情报工作的 一部分,如科技论文统计数据、专利数据、国别科技政策数据等,它们必须真实、及时,否则 就没有价值。 我们对数据的统计分析已给予了足够多的关注,各种统计软件与工具、分析流程与方法琳 琅满目。其实,有了好的数据之后,统计分析反而简单一些。统计往往关注数据的共性,利用 数据的规律性进行处理;而数据清洗往往需要关注数据的个性,针对数据的差异性进行处理。 有规律的数据便于统一处理,存在差异的数据难以统一处理,所以,从某种意义上说,数据清 洗比统计分析要更难,至少更费时。中国科学技术信息研究所论文统计组每年花费大量时间用 于数据清洗,从而保证数据质量,这样得出的统计分析结果才能令人信服,针对统计分析结果 的说明与解读也往往更有价值。 究竟什么样的数据算是海量数据,什么样的数据算是大数据,并不是我们讨论的焦点,我 们讨论的焦点是如何对现有的数据进行有效的清洗、合理的分析,使之能够满足决策服务的需 求。本期的《大数据时代下的情报分析与挖掘技术研究》、《政府门户网站公众满意度调查问 卷缺乏数据的处理研究》、《关联规则的改进与度量研究》等3 篇论文都是涉及数据清洗与分 析的论文,值得大家关注。 萝卜快了可以不洗泥,数据越大越需要清洗。 化柏林  武夷山

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8016031115000003

1亿VIP精品文档

相关文档