依靠优化RMSLE的技巧获取Kaggle第一。

↑↑↑关注后"星标"kaggle竞赛宝典
kaggle竞赛宝典作者：BROCCOLI BEEF
优化RMSLE的技巧！

简介

在kaggle的一些回归问题中都出现了优化RMSLE的问题，例如https://www.kaggle.com/competitions/playground-series-s4e4/overview

其中RMSLE函数的定义如下，

我们在处理上面的问题时，第一时间会直接自定义对应的损失函数，基本99%的朋友都会这么处理，那么有没有更好的处理呢？

分析

对比方案：

往往会先对目标target进行log1p，然后在使用MSE损失函数进行优化。

在理论上，直接优化RMSLE和先转化log1p，在使用MSE进行优化这两种方法并不相同。

对训练目标进行 log1p 转换，对预测结果进行 expm1 转换，这将对应于构建一个“乘法 GBDT 模型”，其中树的输出将相乘；
而使用 MSLE 目标将得到一个正常的（加法）GBDT 模型。

哪种方法“更好”应该针对手头的特定模型进行测试。

代码

msle_loss

from lightgbm import LGBMRegressor

def msle_loss(y_true, y_pred):
    y_pred = np.maximum(y_pred, -1+1e-6)
    return ((np.log1p(y_pred)-np.log1p(y_true))/(1+y_pred), 
            (1-np.log1p(y_pred)+np.log1p(y_true))/(1+y_pred)**2)

实战对比

在Regression with an Abalone Dataset竞赛中，我们做了对比试验发现：

直接优化RMSLE：Estimator0: 0.15046 ± 0.00130
Log1p+MSE: Estimator1: 0.14959 ± 0.00131

log1p-转换之后再用expm1对预测进行转换可以得到更好的效果。

参考文献

https://www.kaggle.com/competitions/playground-series-s4e4/discussion/488283
https://www.kaggle.com/competitions/playground-series-s4e4/discussion/499174

依靠优化RMSLE的技巧获取Kaggle第一。

↑↑↑关注后"星标"kaggle竞赛宝典 kaggle竞赛宝典 作者：BROCCOLI BEEF 优化RMSLE的技巧！

简介

分析

代码

msle_loss

实战对比

相关推荐

↑↑↑关注后"星标"kaggle竞赛宝典
kaggle竞赛宝典作者：BROCCOLI BEEF
优化RMSLE的技巧！