【原创】R语言大数据分析纽约市的311条投诉可视化与时间序列分析论文（附代码数据）.docxVIP

下载本文档

19
0
约2.01万字
约 40页
2019-12-31 发布于浙江
举报
版权申诉

【原创】R语言大数据分析纽约市的311条投诉可视化与时间序列分析论文（附代码数据）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【原创】定制代写开发辅导答疑r/python/spss/matlab/WEKA/sas/sql/C++/stata/eviews/Computer science assignment 代写/代做Project/数据挖掘和统计分析可视化调研报告/程序/PPT等/爬虫数据采集服务（附代码数据）, 咨询QQ：3025393450 有问题百度搜索“”就可以了欢迎登陆官网：/datablog R语言大数据分析纽约市的311条投诉可视化与时间序列数据分析报告介绍本文中的?? 数据??每天都会更新，因此我的文件版本更大，为4.63 GB。自2003年以来，该笔记本浏览了一个3.9GB的CSV文件，其中包含纽约市的311条投诉。它是纽约市开放数据门户网站中最受欢迎的数据集。该笔记本是有关内存不足数据分析的入门 pandas??：一个具有易于使用的数据结构和数据分析工具的库。此外，还可以连接到内存不足数据库（如SQLite）。 IPython notebook??：用于编写和共享python代码，文本和绘图的接口。 SQLite??：一个独立的，无服务器的数据库，易于从Pandas进行设置和查询。 plotly??：一个用于将漂亮的交互式图形从Python发布到Web的平台。数据集太大，无法加载到Pandas数据框中。因此，相反，我们将使用SQLite执行内存不足聚合，然后使用Panda的iotools将结果直接加载到数据帧中。将CSV流式传输到SQLite非常容易，并且SQLite无需设置。SQL查询语言来自Pandas的思维方式，非常直观。数据工作流程在R中进行情节设置 R的Plotly??在 CRAN上尚不可用??。我们可以改为从 rOpenSci??github? 存储库下载它??。 install.packages(devtools) library(devtools) install_github(ropensci/plotly) library(plotly) 您需要创建一个帐户以连接到plotly API。或者，您可以只使用默认的ggplot2图形。 ? set_credentials_file(DemoAccount, lr1c37zw81) ## Replace contents with your API Key 在SQLite中导入CSV 这违背了本文的目的，但是??R可以轻松地??将此数据加载到内存中??。如果您的计算机资源允许，那么与磁盘上的SQL数据库相比，数据在内存中进行操作的速度将更快。在这种情况下，需要8GB的RAM。本着真正比较的精神，我将使用SQLite数据库复制磁盘上的分析方法，但是，我将展示一些使用内存中数据的基准测试??data.table?方法。使用dplyr在R中进行磁盘上分析尽管??dplyr?能够写入数据库，但是数据仍然必须流经R，在这种情况下，它可能被认为是作弊行为。另一种方法是简单地创建数据库并使用命令行导入csv。?如果您有任何其他建议，请为此github存储库创建请求请求??。这是我在命令行中键入的代码。很容易吧？假设您已安装sqlite3并在PATH变量上可用（因此可通过终端访问）。 $ sqlite3 data.db # Create your database$.databases # Show databases to make sure it works$.mode csv $.import filename tablename# Where filename is the name of the csv tablename is the name of the new database table$.quit 让我们也将数据加载到内存中，以便我们可以一路比较内存操作。这是 R.readr中文件I / O的粗略基准。???最近发布的替代方法也??read.csv?应该快速读取这些数据。 ? library(readr)# data.table, selecting a subset of columns time_data.table - system.time(fread(/users/ryankelly/NYC_data.csv, select = c(Agency, Created Date,Closed Date, Complaint Type, Descriptor, City), showProgress = T))# Default data.table time_data.tab