↑↑↑关注后"星标"kaggle竞赛宝典
kaggle竞赛宝典 作者:Psi
Kaggle竞赛采访
前言
经常阅读优秀的人的故事,向他们学习是每个竞赛选手在学习竞赛的道路上最享受的也是最快乐的事情,今天我们一起分享一下Kaggle冠军狂人Psi的采访。
Philipp曾经取得了非常多的成就,包括在Kaggle上多次获奖和排名第一,以及多项科学荣誉,例如在著名的WWW会议上获得最佳论文奖。他曾是世界排名第一的选手。Philipp最显著的成就之一就是与另一位H2O.ai数据科学家Dmitry Gordeev合作,赢得了NFL第二届年度大数据碗比赛。来自世界各地的2000多名数据科学家在Kaggle上竞相预测比赛结果。
本次采访,我们将更多地了解Psi的学术背景,他对Kaggle的热情,以及他作为数据科学家的工作。
问题
- 你有博士学位。在计算机科学方面。为什么你选择数据科学作为职业,而不是坚持学术研究的一方?
- 我获得了博士学位。Technical University of Graz的计算机科学专业,在德国担任博士后研究员。在我的科学生涯中,我接触了许多不同的数据科学主题,并在著名的会议和期刊上发表了许多论文和文章。作为职业生涯的下一步,我将不得不追求教授职位,这听起来很有趣。然而,即使我热爱教学,我也希望钻研更多的应用性工作,这意味着我希望我的工作比研究中最可能的工作更有影响力。这促使我以数据科学为职业。也就是说,我非常喜欢我的博士学位。在那段时间里,我学到了很多东西,但现在我也很高兴站在数据科学和机器学习的前沿,并在H2O.ai扮演了一个真正的制造者角色。
- 你的Kaggle是如何开始的,是什么让你在你的GM旅途中保持着动力?
- 大约八年前,我注册了Kaggle,接近博士学位的第一步。因为我听说了平台的事,想去看看。但我只做了一个样本提交,然后停止接触Kaggle六年。大约两年前,我和Dmitry(当时是Kaggle的dott1718,现在是我的同事)决定一起在Kaggle上参加一个竞赛,作为工作中的一个side项目。我们没抱有任何期望,但最终赢得了比赛,这让我上瘾,这开始了我的Kaggle之旅。在Kaggle上,我的方法一直是以解决新类型的问题来保持动力,而且仍然有新的和令人兴奋的问题需要定期解决。我也喜欢在Kaggle上与有才华的人会面和工作,并看到社区如何努力。
- 你已经杀死了Kaggle排行榜并取得了一些惊人的结果,最新的是 NFL 1st and Future — Impact Detection竞赛,你最终拿了第二。你是如何解决这些问题并取得成功的?
- 人们经常问我怎样才能赢得Kaggle比赛,我认为没有一种通用的秘方可以应用。在Kaggle上的很多成功都是基于经验和对那些乍一看你不太了解的事物的接触和学习的意愿。随着时间的推移,我已经组装了一个特殊的通用工具箱,其中包含了我所处理的每个竞赛的模块。例如,我了解如何设置适当的交叉验证、为我的模型使用哪些库、如何正确地拟合模型、跟踪它们的性能,以及类似的事情。所以我已经有更多的时间来关注最近比赛的新的和关键的方面。每次比赛结束后,我都会努力改进我的工作流程,以提高效率和竞争力。
- 你如何决定参加哪些比赛?
- 我主要是尝试解决新类型的问题或比赛,听起来有趣的数据或问题来解决。有时我也会尝试更多的标准的比赛来保持我对每周变化状态的了解。
- 你通常如何处理Kaggle问题?有什么你最喜欢的ML资源(MOOC、博客等)想与社区分享吗?
- 我尝试运用我已经积累的方法、工具和经验,然后尝试研究手头的具体问题。这意味着我将研究以前在Kaggle上解决类似问题的方法,并阅读相关论文。了解一个问题的最好方法是亲身实践,一路学习。
- 作为H2O.ai的数据科学家,你的角色是什么?你在哪些特定领域工作?
- 在H2O.ai,我的角色是多方面的。我经常参与面向客户的项目,我的目标是用我的数据科学专业知识支持项目。此外,作为Kaggle的大师,我们始终努力利用我们的经验和知识,不断改进我们的产品,开发新的前沿原型和解决方案。例如,这可能意味着我们为 Driverless AI 的新特性提出建议,或在Wave中开发人工智能应用,展示新技术或全流水线数据科学解决方案。
- 你在Kaggle中学到的最棒的东西是什么,你在H2O.ai的专业工作中能用到的?
- 在Kaggle上学习的一个重要内容是如何构建健壮的模型,这些模型可以很好地概括,并且不受强过拟合的影响。这对于Kaggle至关重要,因为您需要在看不见的私有数据上表现良好。这意味着您学习了很多关于健壮交叉验证的知识,并关心其他数据方面,如特征分布变化或某些基本方面。我可以利用这些知识,以及我的工作在H2O.ai,因为这也是一个组成部分,我们的产品。我们希望通过我们在该领域的专业经验和知识,构建强大的机器学习。
- 数据科学领域正在迅速发展。你如何设法跟上所有最新的发展?
- 我主要使用Kaggle来跟上最新的发展;它是一个很好的新技术的过滤器,要么工作在实际和应用的问题奏效亦或者无用。通常情况下,健壮的方法仍然存在,而仅起边缘起作用的技术偶尔会被过滤掉。同时,我也在Twitter和其他平台上跟踪知名研究人员和从业者,努力跟上时代的步伐。
- 您是否有任何特定的领域或问题需要应用您在ML方面的专业知识?
- 我没有什么特别的想法;我通常都会对工作或竞赛中突然出现的一些有趣的问题感到惊讶。深入研究那些乍一看你并不感兴趣的问题是非常必要的。您还可以对问题提出无偏的观点,也可以将从其他问题中获得的经验应用到手头的数据中。
- 为刚刚开始或希望开始数据科学之旅的数据科学和希望开启Kaggle之旅的伙伴们提供一点建议?
- Get your hands Dirty,不要害怕失败,总是渴望学习新的东西。
1.Kaggle竞赛赢得根本停不下来