# Chronon - AirBnb가 공개한 오픈소스 ML 피쳐 플랫폼

> Clean Markdown view of GeekNews topic #14273. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14273](https://news.hada.io/topic?id=14273)
- GeekNews Markdown: [https://news.hada.io/topic/14273.md](https://news.hada.io/topic/14273.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-04-12T09:48:03+09:00
- Updated: 2024-04-12T09:48:03+09:00
- Original source: [github.com/airbnb](https://github.com/airbnb/chronon)
- Points: 17
- Comments: 0

## Topic Body

- 머신러닝을 위한 데이터 파이프라인을 쉽게 구축, 배포, 관리 및 모니터링할 수 있는 오픈소스 엔드투엔드 피처 플랫폼  
- 현재 Airbnb 내 모든 주요 ML 애플리케이션과 Stripe의 주요 사용 사례에 사용되고 있음  
  
### 주요 기능  
- 다양한 소스에서 데이터 수집 가능 : 이벤트 스트림, DB 테이블 스냅샷, 변경 데이터 스트림, 서비스 엔드포인트, 웨어하우스 테이블 등을 천천히 변화하는 차원, 팩트 또는 차원 테이블로 모델링하여 사용 가능  
- 온라인 및 오프라인 컨텍스트에서 결과 생성 : 온라인에서는 확장 가능한 저지연 엔드포인트로, 오프라인에서는 학습 데이터 생성을 위한 hive 테이블로 제공  
- 실시간 또는 배치 정확도 선택 가능 :  
  - 결과를 Temporal 또는 Snapshot 정확도로 구성 가능  
  - Temporal은 온라인 컨텍스트에서 실시간으로 피처 값을 업데이트하고 오프라인 컨텍스트에서 특정 시점에 맞는 피처를 생성하는 것을 의미  
  - Snapshot 정확도는 자정에 하루에 한 번 피처가 업데이트되는 것을 의미  
- 원시 데이터에서 학습 데이터셋 백필 가능 : 모델 학습을 위해 몇 달 동안 피처 로그가 쌓이기를 기다릴 필요 없이 가능  
- 강력한 Python API 제공 : 데이터 소스 유형, 신선도, 컨텍스트 등을 API 수준 추상화로 제공하며, group-by, join, select 등 직관적인 SQL 기본 요소와 강력한 개선 기능을 조합하여 사용 가능  
- 자동화된 피처 모니터링 : 학습 데이터 품질 이해, 학습-서빙 불일치 측정, 피처 드리프트 모니터링 등을 위한 모니터링 파이프라인 자동 생성 가능  
  
### 개발 배경  
- Chronon은 ML 실무자들이 모델링 자체보다 모델에 동력을 공급하는 데이터 관리에 대부분의 시간을 소비하는 일반적인 고충을 해소하기 위해 개발  
  
#### 기존 접근 방식의 한계  
  
1. 오프라인-온라인 복제 방식  
   - ML 실무자는 데이터 웨어하우스의 데이터로 모델을 학습시킨 다음, 온라인 환경에서 해당 피처를 복제하는 방법을 모색함  
   - 장점: 데이터 소스와 대규모 데이터 변환을 위한 강력한 도구 등 데이터 웨어하우스를 최대한 활용할 수 있음  
   - 단점: 온라인 추론을 위한 모델 피처를 제공할 명확한 방법이 없어 불일치와 레이블 누수가 발생하여 모델 성능에 심각한 영향을 미침  
  
2. 로깅 및 대기 방식   
   - ML 실무자는 모델 추론이 실행될 온라인 서빙 환경에서 사용 가능한 데이터로 시작하여, 관련 피처를 데이터 웨어하우스에 로깅함  
   - 충분한 데이터가 축적되면 로그에서 모델을 학습시키고 동일한 데이터로 서빙함  
   - 장점: 일관성이 보장되고 누수 가능성이 낮음  
   - 단점: 긴 대기 시간으로 인해 변화하는 사용자 행동에 신속하게 대응하기 어려움  
  
#### Chronon의 접근 방식  
  
- Chronon은 ML 실무자가 피처를 한 번만 정의하면 모델 학습을 위한 오프라인 흐름과 모델 추론을 위한 온라인 흐름 모두에 동력을 공급할 수 있게 해줌  
- 또한 피처 체이닝, 관측 가능성, 데이터 품질, 피처 공유 및 관리를 위한 강력한 도구를 제공함  
- 이를 통해 기존 접근 방식의 장점은 살리면서 단점은 보완할 수 있게 됨

## Comments



_No public comments on this page._
