测试数据的整理(1)
“星文快投”的目标,始终都是想做一个投标工具,不涉及策略。但事与愿违,没有数据支撑,所有操作都变得像在迷雾中前行,既不知道前进方向,也不知道前面是否有大坑等着。所以,还是尝试着用一些实际数据,来衡量所选择的策略,至少能够提供量化的对比作为参考。
关于数据,拍拍贷提供了数据接口LoanList和BatchListingInfos,不过当下主要任务是对策略的最核心属性——逾期率分析,这些接口更加适合抓取最新的标的,对历史标的抓取并不好。关键是——数据太新的话,其实是不准的,这个在后面的试用中可以看到。
我选用了拍拍贷竞赛提供的数据,包含了成交时间从2015年1月1日到2017年1月30日的328553支信用标的样本数据,不仅有标的特征表,还有标的还款计划和还款记录。简单说,包括了32万个标的,320万条还款数据。由于是真实数据的样本,具有很高的参考价值。
还款计划表
但是,官方数据也存在问题,主要有:
1、标的特征表字段不全。比BatchListingInfos获取的字段要少很多,意味着无法使用所有属性来构造策略了。
2、一些属性对不上号。如淘宝认证。
针对这个问题,费了很大功夫,对数据进行了处理,补齐了所有字段,得到了一个投标样本数据库,包含了32万条真实标的数据,以及这些标的到2017-2-22时的还款情况。在此,不得不称赞一下sqlite,处理这么大的数据,非常轻松。
对真实数据计算逾期率,非常有趣。另外,也能发现逾期率与借款时间有很强的相关性。但我需要的只是一个具有相对可靠性的评估,能够量化比较不同策略的效果即可,所以并不打算进行非常详细的逐月比较。最终,我选择的是一段相对稳定的时间,2016年4月以前的453天的数据,这段时间逾期率处于稳定状态。
最后,简单提一下实现。策略的评估是非常高频而极度消耗资源的任务,所以把它放在另外的服务器上,不会影响到主服务器上的投标效率。
- 这一新的可视化方法教你优雅地探索相关性
- LSTM Networks在股票市场上的探究
- MSBuild的简单介绍与使用
- actionbar详解(二)
- actionbar完全解析(一)
- android galley实现画廊效果
- RavenDB:基于Windows/.NET平台的NoSQL数据库
- 神经网络算法交易:波动预测与定制损失函数
- 贝叶斯深度学习:桥接PyMC3和Lasagne构建层次神经网络
- How does it work in Mono's C# compiler?
- Cross-Origin Resource Sharing协议介绍
- 战斗民族开源神器ClickHouse:一款适合于构建量化回测研究系统的高性能列式数据库(二)
- Microsoft StreamInsight 构建物联网
- 利用 Microsoft StreamInsight 控制较大数据流
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- 树义带你学 Prometheus(五):Prometheus 的关键概念
- 树义带你学 Prometheus(六):Spring Boot Actuator 实现应用监控
- 树义带你学 Prometheus(七):SpringBoot 实现自定义指标监控
- 布尔型盲注的PY交易
- 一文详解「队列」,手撸队列的3种方法!
- 代理模式
- Swift:Lable 高度计算误差
- 基于python检查SSL证书到期情况代码实例
- Python搭建Keras CNN模型破解网站验证码的实现
- PyCharm 在Windows的有用快捷键详解
- Python 自动化测试(三): pytest 参数化测试用例构建
- 基于Android平台实现拼图小游戏
- kotlin项目加入Glide图片加载库并使用GlideApp的方法
- Android实现百分比下载进度条效果
- 实验2 OpenGL交互