- ModernBERT는 최신 기술을 적용한 새로운 인코더 전용 모델로, BERT와 그 후속 모델들보다 속도와 정확성에서 개선을 이룸
- 8192 토큰의 긴 문맥 길이를 지원하며, 코드 데이터도 포함하여 훈련됨
- 다양한 응용 분야에서 사용 가능하며, 특히 대규모 코드 검색 및 새로운 IDE 기능에 적합함
소개
- BERT는 2018년에 출시되어 여전히 널리 사용되고 있는 모델로, 특히 검색, 분류, 엔티티 추출에 적합함.
- ModernBERT는 BERT의 대체 모델로, 속도와 정확성에서 Pareto 개선을 이룸.
- 긴 문맥 길이와 코드 데이터 포함으로 새로운 응용 분야를 개척함.
디코더 전용 모델
- GPT, Llama, Claude와 같은 디코더 전용 모델은 생성 모델로, 인간과 유사한 콘텐츠 생성이 가능함.
- 그러나 이러한 모델은 크고 느리며, 많은 비용이 소요됨.
- 인코더 전용 모델은 실용적이고 효율적이며, 많은 작업에 적합함.
인코더 전용 모델
- 인코더 전용 모델은 입력을 숫자 벡터로 변환하여 표현함.
- 디코더 전용 모델은 미래 토큰을 볼 수 없지만, 인코더 전용 모델은 양방향으로 토큰을 볼 수 있어 효율적임.
- 인코더 전용 모델은 다양한 응용 분야에서 사용되며, 특히 RAG 파이프라인과 추천 시스템에서 중요함.
성능 개요
- ModernBERT는 다양한 작업에서 높은 정확성을 보이며, DeBERTaV3보다 빠르고 메모리 사용량이 적음.
- 긴 문맥 추론에서 다른 고품질 모델보다 최대 3배 빠름.
- 코드 검색에서 독보적인 성능을 보이며, 새로운 응용 프로그램 개발 가능성을 열어줌.
효율성
- ModernBERT는 실용성을 중시하며, 다양한 입력 길이에서 빠른 성능을 보임.
- 긴 문맥 입력에서 다른 모델보다 2-3배 빠름.
- 더 큰 배치 크기를 사용할 수 있어, 작은 GPU에서도 효과적으로 사용 가능함.
ModernBERT의 현대성
- ModernBERT는 최신 엔지니어링을 인코더 모델에 적용하여 개선을 이룸.
- Transformer++ 구조를 채택하여 성능을 향상시킴.
- 효율성과 현대 데이터 규모 및 소스를 중시함.
새로운 Transformer
- ModernBERT는 Transformer++ 구조를 채택하여 성능을 향상시킴.
- RoPE를 사용하여 위치 인코딩을 개선하고, GeGLU 레이어를 사용하여 MLP 레이어를 대체함.
- 불필요한 바이어스 항을 제거하여 파라미터 사용을 최적화함.
레이스 트랙을 위한 Honda Civic 업그레이드
- ModernBERT는 속도를 중시하며, 다양한 응용 분야에서 효율적으로 사용 가능함.
- Flash Attention 2의 속도 개선을 활용하여 효율성을 높임.
- Alternating Attention, Unpadding, Sequence Packing을 통해 계산 낭비를 줄임.
하드웨어에 대한 주의
- ModernBERT는 하드웨어 설계를 중시하여 다양한 GPU에서 최적의 성능을 발휘하도록 설계됨.
- 깊고 좁은 구조와 하드웨어 효율성을 고려하여 모델을 설계함.
훈련
- ModernBERT는 다양한 소스의 데이터를 사용하여 훈련되며, 2조 개의 토큰을 사용함.
- 세 단계의 훈련 과정을 통해 다양한 작업에서 우수한 성능을 보임.
- 초기 훈련 단계에서 배치 크기 워밍업을 사용하여 속도를 높임.
결론
- ModernBERT는 최신 기술을 적용하여 인코더 전용 모델의 성능을 개선함.
- 다양한 작업에서 강력한 성능을 제공하며, 크기/성능 비율이 매력적임.
- 커뮤니티의 창의적인 사용을 기대하며, 데모를 위한 공모전을 진행 중임.