2020年入门数据分析选择Python还是SQL?七个常用操作对比!
SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL
和pandas
来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了解另一种方法!
在阅读本文前,你可以访问下方网站下载本文使用的示例数据,并导入MySQL与pandas中,一边敲代码一边阅读!
https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv
一、选择
在SQL中,我们可以使用SELECT
语句从表选择数据,结果被存储在一个结果表中,语法如下:
SELECT column_name,column_name
FROM table_name;
如果不想显示全部的记录,可以使用TOP
或LIMIT
来限制行数。因此选择tips表中的部分列可以使用下面的语句
SELECT total_bill, tip, smoker, time
FROM tips
LIMIT 5;
而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择
在SQL中,进行选择的同时还可以进行计算,比如添加一列
SELECT *, tip/total_bill as tip_rate
FROM tips
LIMIT 5;
在pandas中使用DataFrame.assign()
同样可以完成这个操作
二、查找
单条件查找
在SQL中,WHERE
子句用于提取那些满足指定条件的记录,语法如下
SELECT column_name,column_name
FROM table_name
WHERE column_name operator value;
比如查找示例数据中time = dinner
的记录
SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;
而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False
的Series对象传递给DataFrame,并返回所有带有True的行
多条件查找
在SQL中,进行多条件查找可以使用AND/OR来完成
SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;
在pandas中也有类似的操作
查找空值
在pandas检查空值是使用notna()
和isna()
方法完成的。
frame[frame['col1'].notna()]
在SQL中可以使用IS NULL
和IS NOT NULL
完成
SELECT *
FROM frame
WHERE col2 IS NULL;
SELECT *
FROM frame
WHERE col1 IS NOT NULL;
三、更新
在SQL中使用UPDATE
UPDATE tips
SET tip = tip*2
WHERE tip < 2;
而在pandas中则有多种方法,比如使用loc
函数
tips.loc[tips['tip'] < 2, 'tip'] *= 2
四、删除
在SQL中使用DELETE
DELETE FROM tips
WHERE tip > 9;
在pandas中,我们选择应保留的行,而不是删除它们
tips = tips.loc[tips['tip'] <= 9]
五、分组
在pandas中,使用groupby()
方法实现分组。groupby()
通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。
常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询
SELECT sex, count(*)
FROM tips
GROUP BY sex;
在pandas中的等价操作为
注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的数量!
六、连接
在pandas可以使用join()
或merge()
进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。
现在让我们重新创建两组示例数据,分别用代码来演示不同的连接
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
....: 'value': np.random.randn(4)})
....:
df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
....: 'value': np.random.randn(4)})
内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN
SELECT *
FROM df1
INNER JOIN df2
ON df1.key = df2.key;
在pandas中可以使用merge()
merge()
提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起?
左/右外联接
在SQL中实现左/右外连接可以使用LEFT OUTER JOIN
和RIGHT OUTER JOIN
SELECT *
FROM df1
LEFT OUTER JOIN df2
ON df1.key = df2.key;
SELECT *
FROM df1
RIGHT OUTER JOIN df2
ON df1.key = df2.key;
在pandas中实现同样可以使用merge()
并指定how关键字为left
或者right
即可
全连接
全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用FULL OUTER JOIN
SELECT *
FROM df1
FULL OUTER JOIN df2
ON df1.key = df2.key;
在pandas中实现同样可以使用merge()
并指定how关键字为outer
七、合并
SQL中UNION操作用于合并两个或多个SELECT语句的结果集,UNION
与UNION ALL
类似,但是UNION将删除重复的行。示例代码如下
SELECT city, rank
FROM df1
UNION ALL
SELECT city, rank
FROM df2;
/*
city rank
Chicago 1
San Francisco 2
New York City 3
Chicago 1
Boston 4
Los Angeles 5
*/
在pandas中可以使用concat()
实现UNION ALL
上面是UNION ALL
保留重复值,如果希望删除可以使用 drop_duplicates()
以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!
-END-
来源:pandas官方文档 https://pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html 编译:刘早起(有删改)
- 学js少看书肯定是不成的,要多看。
- 抽象是啥?就是一群人的特征;js中的call是啥?就是我想用你家的电饭锅
- 从node事件到观察者 -- 学习要有一根线索
- Joy:一款用于捕获和分析网络内部流量数据的工具
- 老尚,能讲讲闭包么?“可以,没问题,马上”
- PHP代码安全杂谈
- angularJs,请问vue是你失散多年的亲人吗?
- 无监督学习神经网络——自编码
- 不学不知道,sort()方法中的坑
- js数组去重的思路与缓动公式
- vue.js 的组件感觉比react的直观&&面试相关的七个实例
- 前端组件“可编辑表格”,怎么设计才好呢?先得有思路
- Linux基础(day61)
- 一款名为Rapid的勒索软件正在迅速传播
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 统计字符串中字符出现的次数-Python
- 类和对象的哲学思考
- MySQL进阶篇(03):合理的使用索引结构和查询
- 动态查看及加载PHP扩展
- 少有人知的 Python "重试机制"
- Gradle之恋(14)-实战spring mvc插件式多项目构建
- Spring Boot 开箱即用
- Qt音视频开发2-vlc回调处理
- cmake学习
- 数据分析:在缓慢变化中寻找跳变——基于缓慢变化维度的用户分群
- 02 Confluent_Kafka权威指南 第二章:安装kafka
- Kafka集群搭建过程(kafka2.5+eagle)
- 07 Confluent_Kafka权威指南 第七章: 构建数据管道
- java中的reference(二): jdk1.8中Reference的源码阅读
- 08 Confluent_Kafka权威指南 第八章:跨集群数据镜像