巧用分析函数循序渐进解决实际问题 (r4笔记第10天)
今天同事问我一个问题,他说问题的逻辑很清晰,但是感觉无心下起。问题的逻辑大体是这样的。
有一个表,存在着大量的数据,比如account_id为1代表account的编号,可以把这个account做暂停操作,相当于把账户冻结,然后在一定的时候后做恢复操作,相当于把账户解冻。就对应ACTIVITY_CODE的 SUSPEND,RESUME
ACCOUNT_ID ACTIVITY_CODE EFFECTIVE_DATE
---------- ------------------------------ ------------------
1 SUSPEND 28-DEC-14
1 RESUME 01-JAN-15
1 SUSPEND 03-JAN-15
1 RESUME 06-JAN-15
1 SUSPEND 07-JAN-15
1 RESUME 08-JAN-15
现在想统计这些操作的累计时间,比如对于ACCOUNT_ID为1的账户来说,存在3组操作。
SUSPEND--RESUME 28-DEC-14 ~ 01-JAN-15 耗时4天
SUSPEND--RESUME 03-JAN-15 ~ 06-JAN-15 耗时3天
SUSPEND--RESUME 07-JAN-15 ~ 08-JAN-15 耗时1天
其中SUSPEND和RESUME操作是一组操作,RESUME操作依赖于SUSPEND,这一点很容易理解,要解冻账号,首先账号得已经冻结。
所以对于上面的操作来说我们期望得到对于ACCOUNT_ID为1的账户来说,耗时8天。
如果单纯得到最大值减去最小值得到的时间差是不准确的,毕竟每组操作的时间是不连续的。
我使用了如下的语句进行了简单模拟。
首先创建表test
create table test(account_id number,activity_code varchar2(30),effective_date date);
插入一些数据,为了尽量使数据看起来不是很规整,把数据的插入顺序进行了微调。
insert into test values(1,'SUSPEND',sysdate-12);
insert into test values(1,'RESUME',sysdate-8);
insert into test values(1,'SUSPEND',sysdate -6);
insert into test values(1,'RESUME',sysdate-3);
insert into test values(2,'SUSPEND',sysdate-10);
insert into test values(2,'RESUME',sysdate-7);
insert into test values(2,'SUSPEND',sysdate -5);
insert into test values(2,'RESUME',sysdate-4);
insert into test values(2,'SUSPEND',sysdate-2);
insert into test values(2,'RESUME',sysdate-1);
insert into test values(1,'SUSPEND',sysdate-2);
insert into test values(1,'RESUME',sysdate-1);
这样我们得到了一个基本的列表。代表某个账户在某个时间段进行了某些操作。
ACCOUNT_ID ACTIVITY_CODE EFFECTIVE_DATE
---------- ------------------------------ ------------------
1 SUSPEND 28-DEC-14
1 RESUME 01-JAN-15
1 SUSPEND 03-JAN-15
1 RESUME 06-JAN-15
2 SUSPEND 30-DEC-14
2 RESUME 02-JAN-15
2 SUSPEND 04-JAN-15
2 RESUME 05-JAN-15
2 SUSPEND 07-JAN-15
2 RESUME 08-JAN-15
1 SUSPEND 07-JAN-15
1 RESUME 08-JAN-15
这个时候我们对数据进行基本的排序,就能够清晰的看到这些操作的时间。
select *from test order by account_id,effective_date;
ACCOUNT_ID ACTIVITY_CODE EFFECTIVE_DATE
---------- ------------------------------ ------------------
1 SUSPEND 28-DEC-14
1 RESUME 01-JAN-15
1 SUSPEND 03-JAN-15
1 RESUME 06-JAN-15
1 SUSPEND 07-JAN-15
1 RESUME 08-JAN-15
2 SUSPEND 30-DEC-14
2 RESUME 02-JAN-15
2 SUSPEND 04-JAN-15
2 RESUME 05-JAN-15
2 SUSPEND 07-JAN-15
2 RESUME 08-JAN-15
我们进行重要的一步操作,把操作进行分组,即SUSPEND-RESUME的操作合成一些,可以使用分析函数lead来完成。 比如对于
select t.account_id,effective_date,lead(effective_date,1,effective_date) over(partition by account_id order by account_id,effective_date) next_date from test t
2 /
ACCOUNT_ID EFFECTIVE_DATE NEXT_DATE
---------- ------------------ ------------------
1 28-DEC-14 01-JAN-15
1 01-JAN-15 03-JAN-15
1 03-JAN-15 06-JAN-15
1 06-JAN-15 07-JAN-15
1 07-JAN-15 08-JAN-15
1 08-JAN-15 08-JAN-15
2 30-DEC-14 02-JAN-15
2 02-JAN-15 04-JAN-15
2 04-JAN-15 05-JAN-15
2 05-JAN-15 07-JAN-15
2 07-JAN-15 08-JAN-15
2 08-JAN-15 08-JAN-15
这样就把操作进行了一个初步的分组,但是标黄列的数据是错误的,它统计的是RESUME-SUSPEND的时间差,这个和逻辑不符,我们需要得到的是SUSPEND-RESUME的时间差。我们可以进行简单过滤。
SQL> select rownum,mod(rownum,2)chk_num,t.account_id,next_date-effective_date duration from
2 (
3 select t.account_id,effective_date,lead(effective_date,1,effective_date) over(partition by account_id order by account_id,effective_date) next_date from test t
4 )t
5 /
ROWNUM CHK_NUM ACCOUNT_ID DURATION
---------- ---------- ---------- ----------
1 1 1 4
2 0 1 2
3 1 1 3
4 0 1 1
5 1 1 1
6 0 1 0
7 1 2 3
8 0 2 2
9 1 2 1
10 0 2 2
11 1 2 1
12 0 2 0
对于mod(ronum,2)=0的数据行来说,这些数据可以排除,这些时间差是不需要考虑的。
最后的完整sql如下:
select t.account_id,sum(duration)
from
(
select rownum,mod(rownum,2)chk_num,t.account_id,next_date-effective_date duration from
(
select t.account_id,effective_date,lead(effective_date,1,effective_date) over(partition by account_id order by account_id,effective_date) next_date from test t
)t
)t where chk_num=1
group by account_id;
ACCOUNT_ID SUM(DURATION)
---------- -------------
1 8
2 5
可以看到account_id为1的账户耗时8天,account_id为2的账户耗时5天。
在表中含有大量的数据前提下,这个操作的资源消耗也不高。如果采用pl/sql也可以解决,不过可能代码要更多。
- Andrew Ng机器学习课程笔记--week10(优化梯度下降)
- Andrew Ng机器学习课程笔记--week9(下)(推荐系统&协同过滤)
- Andrew Ng机器学习课程笔记--week9(上)(异常检测&推荐系统)
- python程序员开发必备的5大工具,你用过几个?
- Andrew Ng机器学习课程笔记--week8(K-means&PCA)
- Andrew Ng机器学习课程笔记--week7(SVM)
- Pytorch windows10安装教程
- Udacity并行计算课程笔记-The GPU Programming Model
- DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week2优化算法
- DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试、正则化以及优化--Week1深度学习的实用层面
- 通俗理解决策树中的熵&条件熵&信息增益
- KNN实现手写数字识别
- softmax分类算法原理(用python实现)
- DeepLearning.ai学习笔记(一)神经网络和深度学习--Week4深层神经网络
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- springboot开发之thymeleaf模板引擎
- Nginx | Nginx增加模块
- springboot之整合druid并配置数据源监控
- c++之程序流程控制
- linux使用 source etc/profile
- c++之数组
- c++之指针
- c++之函数
- kafka的生产者分区机制原理(二)
- (17)Bash别名与快捷键
- (16)Bash历史命令与补全
- 【python-leetcode325-滑动窗口法】最大子数组之和为k
- 爬取51job出现can only concatenate str (not “NoneType“) to str
- springboot之基于注解整合mybatis
- springboot之基于配置文件整合mybatis