- 1、本文档共1页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据更需要先清洗
编者的话
大数据更需要先清洗
无论用海量数据还是大数据来表征这个时代,数据规模庞大、增长迅速、类型繁多、结构
各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数
据,即针对特定问题而构建一个干净、完备的数据集,这一过程变得尤为重要。在大数据时
代,若不加强数据清洗,则GIGO (垃圾进,垃圾出)现象会更加严重。
对数据的清洗之后进行分析挖掘的过程就是情报“去粗取精、去伪存真、化零为整、见微
知著”的过程。只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可以让人
放心的、可用于支撑决策的情报。有时决策者似乎只需要一个简单的数,但是为了得到这一个
数,我们需要搜集大量数据并进行有效的分析与处理。例如,《国家中长期科技发展规划纲要
(2006 - 2020)》提到,到2020 年本国人发明专利年度授权量和国际科学论文被引用数均进入
世界前5 位,“5”是一个简单的数,但是要获知是否进入了前5 位,需要很多数据的支撑,包
括时间为轴的纵向数据以及空间为轴的对比数据等。
以数据为基础既是现代科技情报工作的一个基本特征,也是情报学区别于其他一些相邻学
科的鲜明特色。例如,计算机更注重算法与效率,可以用通用的测试数据做文章,即使这些数
据不够真实、不够及时,也不影响测试;而情报学所构建的一些数据基础本身就是情报工作的
一部分,如科技论文统计数据、专利数据、国别科技政策数据等,它们必须真实、及时,否则
就没有价值。
我们对数据的统计分析已给予了足够多的关注,各种统计软件与工具、分析流程与方法琳
琅满目。其实,有了好的数据之后,统计分析反而简单一些。统计往往关注数据的共性,利用
数据的规律性进行处理;而数据清洗往往需要关注数据的个性,针对数据的差异性进行处理。
有规律的数据便于统一处理,存在差异的数据难以统一处理,所以,从某种意义上说,数据清
洗比统计分析要更难,至少更费时。中国科学技术信息研究所论文统计组每年花费大量时间用
于数据清洗,从而保证数据质量,这样得出的统计分析结果才能令人信服,针对统计分析结果
的说明与解读也往往更有价值。
究竟什么样的数据算是海量数据,什么样的数据算是大数据,并不是我们讨论的焦点,我
们讨论的焦点是如何对现有的数据进行有效的清洗、合理的分析,使之能够满足决策服务的需
求。本期的《大数据时代下的情报分析与挖掘技术研究》、《政府门户网站公众满意度调查问
卷缺乏数据的处理研究》、《关联规则的改进与度量研究》等3 篇论文都是涉及数据清洗与分
析的论文,值得大家关注。
萝卜快了可以不洗泥,数据越大越需要清洗。
化柏林 武夷山
文档评论(0)