# State of Competitive Machine Learning 2022

> Clean Markdown view of GeekNews topic #8766. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=8766](https://news.hada.io/topic?id=8766)
- GeekNews Markdown: [https://news.hada.io/topic/8766.md](https://news.hada.io/topic/8766.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2023-03-22T11:05:02+09:00
- Updated: 2023-03-22T11:05:02+09:00
- Original source: [mlcontests.com](https://mlcontests.com/state-of-competitive-machine-learning-2022/)
- Points: 21
- Comments: 0

## Topic Body

### Highlights  
- 도구는 Python, PyData, Pytorch 및 Gradient-boosted Decision Tree(GBDT) 로 수렴   
- 딥러닝은 테이블 형식 데이터에서는 아직 GBDT를 대체하지 못함   
- 트랜스포머가 NLP를 주도하고 컴퓨터 비전에서 컨볼루션 신경망(CNN)과 경쟁하기 시작   
- 경쟁 대회들은 컴퓨터비전, NLP, 테이블 형식 데이터, 로봇공학, 시계열 분석을 포함한 다양한 연구 분야를 다룸   
- 싱글 모델 솔루션이 우승하기도 하지만, 대규모 앙상블(ensemble)이 일반적으로 우승   
- 머신러닝 경쟁 대회 플랫폼들이 여러개 있고, 각각의 대회를 위해 만들어진 수십개의 사이트도 있음   
- 경쟁적 머신 러닝은 학계를 포함해서 계속해서 인기가 높아지고 있음   
- 우승자의 50%가 솔로 우승자이고, 우승자의 50%는 처음 우승자. 30%는 이전에 두번 이상 우승   
- 일부 경쟁자들은 자신의 솔루션을 훈련하기 위해 하드웨어에 상당한 투자를 할 수 있지만, Google Colab과 같은 무료 하드웨어를 사용 하는 경쟁자들도 여전히 우승할 수 있음   
### Competitive ML Landscape  
- Notable Competitions and Trends  
  - 금액면에서는 DrivenData의 Snowcast Showdown(미국 국토개발국 후원). $500k 상금  
  - 가장 인기 있었던 것은 Kaggle의 American Express Default Prediction. 4000개가 넘는 팀이 참가. $100k 상금. 1등은 첫 참가한 솔로(뉴럴 넷 + LightGBM)  
  - 가장 큰 독립 대회는 Stanford의 AI Audit Challenge  
  - 가장 컷던 분야는 컴퓨터 비전 : 환경, 의학   
  - 두번째로 큰 분야는 NLP : NLP + 검색, NLP + Reinforcement Learning   
  - Sequential Decision-Making 분야도 성장중   
- 플랫폼   
  - Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..  
  - 그외 흥미로운 플랫폼들 : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..  
- Purpose   
  - 잘 운영된 대회들은   
    - 풀어보고 싶은 흥미로운 문제를 학습데이터와 함께 제공   
    - 유능한 잠재적 참가자들의 집합   
    - 오버피팅한 참가자에게 불이익을 주는 메커니즘   
    - 참가자들이 문제 해결에 실질적 노력을 기울일만한 충분한 (재정적) 인센티브  
    - 우승 솔루션에 대한 공개적인 리뷰(대회 종료 후)  
### Winning Solutions  
- Winning Toolkit : Python, 두번째는 C++  
- 주로 사용하는 Python 패키지   
  - PyData : Numpy, Pandas, SciPy, Scikit Learn   
  - Deep Learning: PyTorch   
  - GBDT : LightGBM, XGBoost, CatBoost   
  - Hyperparameter Optimisation : Optuna   
  - Experiment Tracking : W&B   
  - Visualiation : matplotlib, seaborn   
  - NLP Toolkit : Tranformers   
  - Computer Vision Toolkit : Albumentations, OpenCV, pillow, scikit-image, timm

## Comments


_No public comments on this page._