21P by xguru 2023-03-22 | favorite | 댓글과 토론

Highlights

  • 도구는 Python, PyData, Pytorch 및 Gradient-boosted Decision Tree(GBDT) 로 수렴
  • 딥러닝은 테이블 형식 데이터에서는 아직 GBDT를 대체하지 못함
  • 트랜스포머가 NLP를 주도하고 컴퓨터 비전에서 컨볼루션 신경망(CNN)과 경쟁하기 시작
  • 경쟁 대회들은 컴퓨터비전, NLP, 테이블 형식 데이터, 로봇공학, 시계열 분석을 포함한 다양한 연구 분야를 다룸
  • 싱글 모델 솔루션이 우승하기도 하지만, 대규모 앙상블(ensemble)이 일반적으로 우승
  • 머신러닝 경쟁 대회 플랫폼들이 여러개 있고, 각각의 대회를 위해 만들어진 수십개의 사이트도 있음
  • 경쟁적 머신 러닝은 학계를 포함해서 계속해서 인기가 높아지고 있음
  • 우승자의 50%가 솔로 우승자이고, 우승자의 50%는 처음 우승자. 30%는 이전에 두번 이상 우승
  • 일부 경쟁자들은 자신의 솔루션을 훈련하기 위해 하드웨어에 상당한 투자를 할 수 있지만, Google Colab과 같은 무료 하드웨어를 사용 하는 경쟁자들도 여전히 우승할 수 있음

Competitive ML Landscape

  • Notable Competitions and Trends
    • 금액면에서는 DrivenData의 Snowcast Showdown(미국 국토개발국 후원). $500k 상금
    • 가장 인기 있었던 것은 Kaggle의 American Express Default Prediction. 4000개가 넘는 팀이 참가. $100k 상금. 1등은 첫 참가한 솔로(뉴럴 넷 + LightGBM)
    • 가장 큰 독립 대회는 Stanford의 AI Audit Challenge
    • 가장 컷던 분야는 컴퓨터 비전 : 환경, 의학
    • 두번째로 큰 분야는 NLP : NLP + 검색, NLP + Reinforcement Learning
    • Sequential Decision-Making 분야도 성장중
  • 플랫폼
    • Kaggle > Tianchi > Codalab > Zindi > AICrowd > DrivenData > ,..
    • 그외 흥미로운 플랫폼들 : Numerai, Markridakis Open Forecasting Center, Microprediction, OpenML, CodaBench,..
  • Purpose
    • 잘 운영된 대회들은
      • 풀어보고 싶은 흥미로운 문제를 학습데이터와 함께 제공
      • 유능한 잠재적 참가자들의 집합
      • 오버피팅한 참가자에게 불이익을 주는 메커니즘
      • 참가자들이 문제 해결에 실질적 노력을 기울일만한 충분한 (재정적) 인센티브
      • 우승 솔루션에 대한 공개적인 리뷰(대회 종료 후)

Winning Solutions

  • Winning Toolkit : Python, 두번째는 C++
  • 주로 사용하는 Python 패키지
    • PyData : Numpy, Pandas, SciPy, Scikit Learn
    • Deep Learning: PyTorch
    • GBDT : LightGBM, XGBoost, CatBoost
    • Hyperparameter Optimisation : Optuna
    • Experiment Tracking : W&B
    • Visualiation : matplotlib, seaborn
    • NLP Toolkit : Tranformers
    • Computer Vision Toolkit : Albumentations, OpenCV, pillow, scikit-image, timm