- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录
第一章 :初识OpenRefine 3
介绍OpenRefine 4
要点1:安装OpenRefine 5
WINDOWS 5
MAC 5
LINUX 6
要点2:创建一个新项目 6
OpenRefine支持的文件类型 7
要点3:探索数据 9
要点4:操纵列 10
列隐藏和展开 10
移动列 12
重命名或删除列 13
要点5:使用项目操作历史 13
要点6:导出项目 15
要点7:获取更多的运行内存 18
Windows 18
Mac 18
Linux 18
小结 19
第二章:分析和修改数据 20
点1-数据排序 21
对行进行重新排序 23
点2-数据透视 23
文本透视 23
数字透视 27
定制透视 29
对标星和标旗行进行透视 32
点3-重复检测 33
点4-应用一个文本过滤 35
点5-使用简单单元格转换 36
点6-删除匹配行 39
小结 42
:初识OpenRefine
本章中,我们会说明OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。
◎安装OpenRefine
◎创建一个项目
◎探索你的数据
◎操纵列
◎使用项目历史
◎输出项目
◎充分利用内存
虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需要如此,因为这几点中我们提供了软件操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。
介绍OpenRefine
我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。
确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。
数据画像 Olson定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。
数据清洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。
鉴于后续章节都需要保证数据已经画像清洗过,数据转换工具(IDTS)能够快速廉价的在一个操作界面内处理大量的数据问题,即使处理人员缺乏专业技术背景,所以IDTS也就成为了首选。
OpenRefine就是这样一个IDTS工具,其能够对数据进行可视化操作处理。它很像传统的excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整合数据却功能强大。
的要点介绍将帮助您熟悉OpenRefine的主要功能,从导入导出数据到数据探索,从历史操作使用到内存管理。
要点1:安装OpenRefine
本点中,您将学习如何下载最新版本的OpenRefine和如何在你喜欢的操作系统中运行软件。
让我们开始吧:请从http://OpenR下载软件,OpenRefine原来叫做Freebase Gridworks。后来几年使用名称为Google refine。2012年10月后,这个软件被社区接手,使其真正成为开源软件。
OpenRefine2.6是使用新名称后的第一个版本,如果你对开发版本感兴趣,可以访问:/OpenRefine。
OpenRefine基于JAVA环境,也就是说和操作系统无关,你只需要保证你的电脑上安装了最新版的JAVA环境(可以到/download下载),然后根据你的操作系统按对应步骤操作:
WINDOWS
下载zip压缩包
解压到指定文件夹
双击OpenRefine.exe运行
MAC
下载DMG压缩镜像文件
打开压缩镜像文件,把OpenRefine图标拖到程序文件夹
双击OpenRefine图标打开
LINUX
下载gzipped压缩包
解压到根目录
在命令行窗口输入./refine打开
我们需要了解,默认情况下,OpenRefine会分配1G内存给JAVA,处理小数据集是足够用了,但是处理大数据集就会捉襟见肘。在要点7:充分利用内存 中,我们会讨论如何让OpenRefine处理更大的数据,不同的操作系统有不同的方法。
要点2:创建一个新项目
在本点中,你会学到如何导入数据到OpenRefine,可以是新建一个项目并导入数据集,也可以是打开一个项目或者是导入别人创建的项目。
如果你按照 要点1 已经成功安装了OpenRefine并打开,你会发现OpenRefine是在你的默认浏览器中打开的,但是你需要知道:程序是在本地运行的,除了在本书附录中要使用额
文档评论(0)