3-关于R的若干SQL等价问题.docx

下载文档 降价啦

1
0
约3.69千字
约 3页
2017-08-16 发布于浙江
举报
版权申诉
保障服务

3-关于R的若干SQL等价问题.docx

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

3-关于R的若干SQL等价问题

关于R的若干SQL等价问题发布?于 July 10th, 2012?归类?在?日常应用以前总是觉得不同的计算机语言之间只是语法问题，思路其实还是差不多的--后来才知道不尽然如此。比如用惯了R作分析，切换到其他语言顿时觉得效率降低了好多，尤其是很多一行命令在R里面就可以搞定的时候-思维习惯了一定程度的跳跃，常用的操作（尤其是数据整理！）封装成函数之后工作效率那叫一个倍增啊！结合knitr，原来的时候生成定期报告的效率极其之高，基本属于10倍以上的时间节省。现在公司的数据平台是teradata，典型的SQL结构，各种join。在这么大的数据量下，不可能直接取数据到本机来分析，只能借助SQL进行一定程度的降维。而后剩下的收尾分析工作，可以由R完成。至于两者之间分工的界限在哪里，我还在摸索一个效率最高的平衡点。不得不吐槽一下，SQL的逻辑思维方式真心没效率，完全是为了数据库性能和空间单位平衡而设计的，做分析的时候就额外的痛苦许多——90%以上的时间都用来琢磨怎么鼓捣出来自己需要的数据格式，全在数据清理上了！抱怨完毕，除了祈祷hadoopR和oracle连接起来彻底摆脱SQL阴影之外，暂时只能跟SQL硬战。下面说说最近常见的几个相同功能在R和SQL里面分别的实现方法。1. 生成新变量多见的明确的任务啊。如果是数值型，比如变量D是其他三个变量ABC的显性函数f(A,B,C)，最简单诸如D=A+B+C，在R和SQL里面都是直接写。R：my_dataframe$D - my_dataframe$A+ my_dataframe$B + my_dataframe$C（当然还有更elegant的with()函数）SQL(以select为例):?SELECT A,B,C, A+B+C D from my_datatable;然后如果f()稍稍复杂的话，R的可以定义函数的优势就明显了，SQL只有macro模式显然不足够灵活强大。如，R:generate_D - function(VarA=A, VarB=B, VarC=C) {VarD - VarA * VarB *(VarB %*% VarC)return( VarD)}my_dataframe$D - generate_D(my_dataframe$A, my_dataframe$B, my_dataframe$C)注：%*%代表向量内积或矩阵乘法，这里为一个数字。理论上这里可以调用任何R中函数。如果新变量是字符型，R的优势就更明显了，字符串操作函数例如substr()取字符串其中一段，paste()连接多个字符串，grep()和sub()查找替换类，自然比SQL灵活的多。还是那句话，只要能用函数写出来，R都可以方便地搞定。你问我拿SQL跟R比这个有意思么？明显SQL就不是为了这个功能专门设计的啊。好吧，常见的生成新变量的情况：有条件的生成新变量，比如年龄分组等，基本就是按照若干已知条件生成一个新的变量。这里，SQL的case when确实方便，比如年龄分为老中青三组：SQL:SELECT CASE WHEN AGE50 THEN oldWHEN AGE between 25 and 50 THEN midELSE youngEND AGE_GROUPFROM my_datatable而R中，我一直用一种最笨的办法-刚刚搜了一下发现其实我的办法还是挺好用的。My_dataframe$AGE_GROUP - youngMy_dataframe[My_dataframe$AGE 50,]$AGE_GROUP - midMy_dataframe[(My_dataframe$AGE =25 ) (My_datafame$AGE= 50),]$AGE_GROUP - mid当然也可以用ifelse()或者transform的方法，我倒是觉得没有这种笨办法清晰简洁易读，易于回头看代码。ifelse那堆括号哦！没有高亮匹配会死人的。这里边界值随意，不考虑直接除法取整的情况。两种分类时可以直接用逻辑型简化，一行出结果；另，数值型离散化转换为factor型其实可以简单的用一个函数cut()搞定..（多谢yihui一语道破天机）2. 分组加总等数据整理统计要知道在很多时候，什么都比不上基本的求和均值方差有用，偶尔来个计数最大最小值就不错了。SQL一个group by 就神马都搞定了，比如对每组顾客购买的图书本书去重、求和。SQL:SELECT user_group, SUM(book_quantity) quantity, count(distinct book_id) sold_bookFROM my_datatableGROUP BY user_group那么相对应的，在R中，我们的解决策略是万能的data.t