大数据更需要先清洗.PDFVIP

下载本文档

11
0
约1.16千字
约 1页
2017-04-23 发布于湖北
举报
版权申诉

大数据更需要先清洗.PDF

1、本文档共1页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据更需要先清洗

编者的话大数据更需要先清洗无论用海量数据还是大数据来表征这个时代，数据规模庞大、增长迅速、类型繁多、结构各异已成为无法回避的现实问题。如何把繁杂的大数据变成我们能应付的、有效的“小”数据，即针对特定问题而构建一个干净、完备的数据集，这一过程变得尤为重要。在大数据时代，若不加强数据清洗，则ＧＩＧＯ（垃圾进，垃圾出）现象会更加严重。对数据的清洗之后进行分析挖掘的过程就是情报“去粗取精、去伪存真、化零为整、见微知著”的过程。只有通过清洗与过滤得到干净完备的数据，才能通过分析与挖掘得到可以让人放心的、可用于支撑决策的情报。有时决策者似乎只需要一个简单的数，但是为了得到这一个数，我们需要搜集大量数据并进行有效的分析与处理。例如，《国家中长期科技发展规划纲要（２００６－２０２０）》提到，到２０２０年本国人发明专利年度授权量和国际科学论文被引用数均进入世界前５位，“５”是一个简单的数，但是要获知是否进入了前５位，需要很多数据的支撑，包括时间为轴的纵向数据以及空间为轴的对比数据等。以数据为基础既是现代科技情报工作的一个基本特征，也是情报学区别于其他一些相邻学科的鲜明特色。例如，计算机更注重算法与效率，可以用通用的测试数据做文章，即使这些数据不够真实、不够及时，也不影响测试；而情报学所构建的一些数据基础本身就是情报工作的一部分，如科技论文统计数据、专利数据、国别科技政策数据等，它们必须真实、及时，否则就没有价值。我们对数据的统计分析已给予了足够多的关注，各种统计软件与工具、分析流程与方法琳琅满目。其实，有了好的数据之后，统计分析反而简单一些。统计往往关注数据的共性，利用数据的规律性进行处理；而数据清洗往往需要关注数据的个性，针对数据的差异性进行处理。有规律的数据便于统一处理，存在差异的数据难以统一处理，所以，从某种意义上说，数据清洗比统计分析要更难，至少更费时。中国科学技术信息研究所论文统计组每年花费大量时间用于数据清洗，从而保证数据质量，这样得出的统计分析结果才能令人信服，针对统计分析结果的说明与解读也往往更有价值。究竟什么样的数据算是海量数据，什么样的数据算是大数据，并不是我们讨论的焦点，我们讨论的焦点是如何对现有的数据进行有效的清洗、合理的分析，使之能够满足决策服务的需求。本期的《大数据时代下的情报分析与挖掘技术研究》、《政府门户网站公众满意度调查问卷缺乏数据的处理研究》、《关联规则的改进与度量研究》等３篇论文都是涉及数据清洗与分析的论文，值得大家关注。萝卜快了可以不洗泥，数据越大越需要清洗。化柏林　武夷山