跳到主要内容

JDD-2017京东金融全球数据探索者大赛,信贷需求预测赛题总结

· 2 分钟阅读
Allen Ma

经过12月上半旬的半个月的激战,这次比赛的成绩并不理想,但是作为第一次参与的这样的正式的比赛也算学习到比较多的知识了,时间没有白费。将所写的代码进行重构,顺便参考一位排名17选手的开源代码和提特征思路;同时记录这个过程,我想这有助于不会写竞赛baseline代码的同学参考。

本次对代码进行重构的过程中也学习同不少知识,同时也对之前的竞赛提取特征思路进行了一些修正,使线下成绩有了不少提升;比如仅使用 t_user.csv 和 t_loan.csv两个文件就能使线下成绩达到 1.7929,在比赛的时候就听说可以仅使用这两张表就可以达到1.80,1.79,当时觉得挺难,没想到将自己的代码改一下也可以达到;另外再加上 t_order.csv和 t_click.csv这两个表的单表特征(没有提取交叉特征)成绩就可以提升到1.7877(还没有经过调参和模型融合)。

重构代码中的函数以及特征变量命名解释:

gen_train_feat.py : 提取训练集特征的脚本(8,9,10月的数据)

gen_test_feat.py : 提取测试集特横的脚本(9,10,11月的数据)

util.py : 用到的一些辅助工具函数

train.py : 训练脚本

此项目源码与数据集参考地址: 点击此处 备用链接 提取密码:AllenMa