【原创】R语言大数据分析纽约市的311条投诉可视化与时间序列分析论文(附代码数据).docxVIP

【原创】R语言大数据分析纽约市的311条投诉可视化与时间序列分析论文(附代码数据).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【原创】定制代写开发辅导答疑r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment 代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务(附代码数据), 咨询QQ:3025393450 有问题百度搜索“”就可以了 欢迎登陆官网:/datablog R语言大数据分析纽约市的311条投诉可视化与时间序列数据分析报告 介绍 本文中的?? 数据??每天都会更新,因此我的文件版本更大,为4.63 GB。 自2003年以来,该笔记本浏览了一个3.9GB的CSV文件,其中包含纽约市的311条投诉。它是纽约市开放数据门户网站中最受欢迎的数据集。 该笔记本是有关内存不足数据分析的入门 pandas??:一个具有易于使用的数据结构和数据分析工具的库。此外,还可以连接到内存不足数据库(如SQLite)。 IPython notebook??:用于编写和共享python代码,文本和绘图的接口。 SQLite??:一个独立的,无服务器的数据库,易于从Pandas进行设置和查询。 plotly??:一个用于将漂亮的交互式图形从Python发布到Web的平台。 数据集太大,无法加载到Pandas数据框中。因此,相反,我们将使用SQLite执行内存不足聚合,然后使用Panda的iotools将结果直接加载到数据帧中。将CSV流式传输到SQLite非常容易,并且SQLite无需设置。SQL查询语言来自Pandas的思维方式,非常直观。 数据工作流程 在R中进行情节设置 R的Plotly??在 CRAN上尚不可用??。我们可以改为从 rOpenSci??github? 存储库下载它??。 install.packages(devtools) library(devtools) install_github(ropensci/plotly) library(plotly) 您需要创建一个帐户以连接到plotly API。或者,您可以只使用默认的ggplot2图形。 ? set_credentials_file(DemoAccount, lr1c37zw81) ## Replace contents with your API Key 在SQLite中导入CSV 这违背了本文的目的,但是??R可以轻松地??将此数据加载到内存中??。如果您的计算机资源允许,那么与磁盘上的SQL数据库相比,数据在内存中进行操作的速度将更快。在这种情况下,需要8GB的RAM。本着真正比较的精神,我将使用SQLite数据库复制磁盘上的分析方法,但是,我将展示一些使用内存中数据的基准测试??data.table?方法。 使用dplyr在R中进行磁盘上分析 尽管??dplyr?能够写入数据库,但是数据仍然必须流经R,在这种情况下,它可能被认为是作弊行为。另一种方法是简单地创建数据库并使用命令行导入csv。?如果您有任何其他建议,请 为此github存储库创建请求请求??。 这是我在命令行中键入的代码。很容易吧?假设您已安装sqlite3并在PATH变量上可用(因此可通过终端访问)。 $ sqlite3 data.db # Create your database$.databases # Show databases to make sure it works$.mode csv $.import filename tablename# Where filename is the name of the csv tablename is the name of the new database table$.quit 让我们也将数据加载到内存中,以便我们可以一路比较内存操作。这是 R.readr中文件I / O的粗略基准。???最近发布的替代方法也??read.csv?应该快速读取这些数据。 ? library(readr)# data.table, selecting a subset of columns time_data.table - system.time(fread(/users/ryankelly/NYC_data.csv, select = c(Agency, Created Date,Closed Date, Complaint Type, Descriptor, City), showProgress = T))# Default data.table time_data.tab

文档评论(0)

lico9e + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档