Highlights
- 도구는 Python, PyData, Pytorch 및 Gradient-boosted Decision Tree(GBDT) 로 수렴
- 딥러닝은 테이블 형식 데이터에서는 아직 GBDT를 대체하지 못함
- 트랜스포머가 NLP를 주도하고 컴퓨터 비전에서 컨볼루션 신경망(CNN)과 경쟁하기 시작
- 경쟁 대회들은 컴퓨터비전, NLP, 테이블 형식 데이터, 로봇공학, 시계열 분석을 포함한 다양한 연구 분야를 다룸
- 싱글 모델 솔루션이 우승하기도 하지만, 대규모 앙상블(ensemble)이 일반적으로 우승
- 머신러닝 경쟁 대회 플랫폼들이 여러개 있고, 각각의 대회를 위해 만들어진 수십개의 사이트도 있음
- 경쟁적 머신 러닝은 학계를 포함해서 계속해서 인기가 높아지고 있음
- 우승자의 50%가 솔로 우승자이고, 우승자의 50%는 처음 우승자. 30%는 이전에 두번 이상 우승
- 일부 경쟁자들은 자신의 솔루션을 훈련하기 위해 하드웨어에 상당한 투자를 할 수 있지만, Google Colab과 같은 무료 하드웨어를 사용 하는 경쟁자들도 여전히 우승할 수 있음
Competitive ML Landscape
- Notable Competitions and Trends
- 금액면에서는 DrivenData의 Snowcast Showdown(미국 국토개발국 후원). $500k 상금
- 가장 인기 있었던 것은 Kaggle의 American Express Default Prediction. 4000개가 넘는 팀이 참가. $100k 상금. 1등은 첫 참가한 솔로(뉴럴 넷 + LightGBM)
- 가장 큰 독립 대회는 Stanford의 AI Audit Challenge
- 가장 컷던 분야는 컴퓨터 비전 : 환경, 의학
- 두번째로 큰 분야는 NLP : NLP + 검색, NLP + Reinforcement Learning
- Sequential Decision-Making 분야도 성장중
- 플랫폼
- Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
- 그외 흥미로운 플랫폼들 : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
- Purpose
- 잘 운영된 대회들은
- 풀어보고 싶은 흥미로운 문제를 학습데이터와 함께 제공
- 유능한 잠재적 참가자들의 집합
- 오버피팅한 참가자에게 불이익을 주는 메커니즘
- 참가자들이 문제 해결에 실질적 노력을 기울일만한 충분한 (재정적) 인센티브
- 우승 솔루션에 대한 공개적인 리뷰(대회 종료 후)
Winning Solutions
- Winning Toolkit : Python, 두번째는 C++
- 주로 사용하는 Python 패키지
- PyData : Numpy, Pandas, SciPy, Scikit Learn
- Deep Learning: PyTorch
- GBDT : LightGBM, XGBoost, CatBoost
- Hyperparameter Optimisation : Optuna
- Experiment Tracking : W&B
- Visualiation : matplotlib, seaborn
- NLP Toolkit : Tranformers
- Computer Vision Toolkit : Albumentations, OpenCV, pillow, scikit-image, timm