# ModernBERT - BERT를 대체할 모델

> Clean Markdown view of GeekNews topic #18355. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18355](https://news.hada.io/topic?id=18355)
- GeekNews Markdown: [https://news.hada.io/topic/18355.md](https://news.hada.io/topic/18355.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-12-20T10:34:44+09:00
- Updated: 2024-12-20T10:34:44+09:00
- Original source: [huggingface.co](https://huggingface.co/blog/modernbert)
- Points: 17
- Comments: 1

## Summary

ModernBERT는 최신 기술을 적용한 인코더 전용 모델로, BERT보다 속도와 정확성에서 개선을 이루었으며, 긴 문맥 길이와 코드 데이터를 포함하여 다양한 응용 분야에서 사용 가능합니다. 이 모델은 Transformer++ 구조를 채택하고, RoPE와 GeGLU 레이어를 사용하여 성능을 향상시켰으며, Flash Attention 2 등의 기술을 통해 효율성을 높였습니다. ModernBERT는 다양한 소스의 데이터를 사용하여 훈련되었고, 크기/성능 비율이 매력적입니다.

## Topic Body

- ModernBERT는 최신 기술을 적용한 새로운 인코더 전용 모델로, BERT와 그 후속 모델들보다 속도와 정확성에서 개선을 이룸  
- 8192 토큰의 긴 문맥 길이를 지원하며, 코드 데이터도 포함하여 훈련됨  
- 다양한 응용 분야에서 사용 가능하며, 특히 대규모 코드 검색 및 새로운 IDE 기능에 적합함  
  
### 소개  
  
- BERT는 2018년에 출시되어 여전히 널리 사용되고 있는 모델로, 특히 검색, 분류, 엔티티 추출에 적합함.  
- ModernBERT는 BERT의 대체 모델로, 속도와 정확성에서 Pareto 개선을 이룸.  
- 긴 문맥 길이와 코드 데이터 포함으로 새로운 응용 분야를 개척함.  
  
### 디코더 전용 모델  
  
- GPT, Llama, Claude와 같은 디코더 전용 모델은 생성 모델로, 인간과 유사한 콘텐츠 생성이 가능함.  
- 그러나 이러한 모델은 크고 느리며, 많은 비용이 소요됨.  
- 인코더 전용 모델은 실용적이고 효율적이며, 많은 작업에 적합함.  
  
### 인코더 전용 모델  
  
- 인코더 전용 모델은 입력을 숫자 벡터로 변환하여 표현함.  
- 디코더 전용 모델은 미래 토큰을 볼 수 없지만, 인코더 전용 모델은 양방향으로 토큰을 볼 수 있어 효율적임.  
- 인코더 전용 모델은 다양한 응용 분야에서 사용되며, 특히 RAG 파이프라인과 추천 시스템에서 중요함.  
  
### 성능 개요  
  
- ModernBERT는 다양한 작업에서 높은 정확성을 보이며, DeBERTaV3보다 빠르고 메모리 사용량이 적음.  
- 긴 문맥 추론에서 다른 고품질 모델보다 최대 3배 빠름.  
- 코드 검색에서 독보적인 성능을 보이며, 새로운 응용 프로그램 개발 가능성을 열어줌.  
  
### 효율성  
  
- ModernBERT는 실용성을 중시하며, 다양한 입력 길이에서 빠른 성능을 보임.  
- 긴 문맥 입력에서 다른 모델보다 2-3배 빠름.  
- 더 큰 배치 크기를 사용할 수 있어, 작은 GPU에서도 효과적으로 사용 가능함.  
  
### ModernBERT의 현대성  
  
- ModernBERT는 최신 엔지니어링을 인코더 모델에 적용하여 개선을 이룸.  
- Transformer++ 구조를 채택하여 성능을 향상시킴.  
- 효율성과 현대 데이터 규모 및 소스를 중시함.  
  
### 새로운 Transformer  
  
- ModernBERT는 Transformer++ 구조를 채택하여 성능을 향상시킴.  
- RoPE를 사용하여 위치 인코딩을 개선하고, GeGLU 레이어를 사용하여 MLP 레이어를 대체함.  
- 불필요한 바이어스 항을 제거하여 파라미터 사용을 최적화함.  
  
### 레이스 트랙을 위한 Honda Civic 업그레이드  
  
- ModernBERT는 속도를 중시하며, 다양한 응용 분야에서 효율적으로 사용 가능함.  
- Flash Attention 2의 속도 개선을 활용하여 효율성을 높임.  
- Alternating Attention, Unpadding, Sequence Packing을 통해 계산 낭비를 줄임.  
  
### 하드웨어에 대한 주의  
  
- ModernBERT는 하드웨어 설계를 중시하여 다양한 GPU에서 최적의 성능을 발휘하도록 설계됨.  
- 깊고 좁은 구조와 하드웨어 효율성을 고려하여 모델을 설계함.  
  
### 훈련  
  
- ModernBERT는 다양한 소스의 데이터를 사용하여 훈련되며, 2조 개의 토큰을 사용함.  
- 세 단계의 훈련 과정을 통해 다양한 작업에서 우수한 성능을 보임.  
- 초기 훈련 단계에서 배치 크기 워밍업을 사용하여 속도를 높임.  
  
### 결론  
  
- ModernBERT는 최신 기술을 적용하여 인코더 전용 모델의 성능을 개선함.  
- 다양한 작업에서 강력한 성능을 제공하며, 크기/성능 비율이 매력적임.  
- 커뮤니티의 창의적인 사용을 기대하며, 데모를 위한 공모전을 진행 중임.

## Comments


### Comment 32558

- Author: neo
- Created: 2024-12-20T10:34:44+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42463315) 
- Answer.AI의 Jeremy는 새로운 모델 출시가 다양한 스타트업과 프로젝트의 기초가 될 수 있을 것이라고 기대함
  - 블로그 게시물에 언급된 내용은 빙산의 일각에 불과하며, 모델을 다양한 방식으로 세밀하게 조정할 수 있는 많은 기회가 있음
- 인코더 전용 모델은 매달 10억 건 이상의 다운로드를 기록하며, 디코더 전용 모델보다 세 배 더 많음
  - 이는 디코더 사용자가 Hugging Face를 사용하지 않고 API 호출을 사용하기 때문이기도 하고, 인코더가 대부분의 진지한 ML 애플리케이션의 숨은 영웅이기 때문임
  - 랭킹, 추천, RAG 등을 수행하려면 인코더가 필요하며, 일반적으로 BERT, RoBERTa, ALBERT 계열의 모델이 사용됨
- 몇 년 전 BERT 모델을 요약 등에 사용했을 때 기적처럼 느껴졌음
  - Ollama가 라이브러리에 추가할 때까지 기다릴 예정이며, 최근 LLM의 속도 향상이 인상적임
  - Apple은 BERT 모델을 개발자 SDK에서 지원해 왔으며, 새로운 기술로 얼마나 빨리 업데이트할지 궁금함
- 논문을 읽고 로컬 주의 레이어 추가에 감명받았음
  - Lucidrains 저장소에서 몇 년간 실험했으며, 더 발전하지 않은 것이 놀라웠음
  - 추론 속도가 훌륭하며, NSP 제거와 마스킹 증가, RoPE 및 긴 컨텍스트 등 많은 개선이 이루어졌음
  - "ModernTinyBERT"를 만들고 싶지만, 레이어가 복잡하게 얽혀 있어 어려움
- BERT 모델이 현재 어디에서 사용되는지 궁금함
  - 특정 작업에서 LLM보다 더 나은 대안으로 이해했으며, 양방향으로 문맥을 더 잘 이해할 수 있음
  - 그러나 LLM도 강력하여 차이가 미미할 수 있음
- 모델을 SentenceTransformers로 세밀하게 조정할 수 있는지 궁금함
  - ColBERT가 벤치마크에 포함되어 있으며, answerai-colbert-small-v2가 곧 출시될 예정인지 궁금함
- ModernBERT에 대한 RAG 평가를 본 사람이 있는지 궁금함
- Answer.ai 팀이 오늘 성과를 내고 있으며, Jeremy와 팀에게 잘했다고 칭찬함
- 모델이 영어만 지원하는지, 다국어 모델이나 다른 언어의 단일 언어 모델을 출판할 계획이 있는지 궁금함
- 모델 이름을 ERNIE로 짓지 않은 것이 아쉬운 기회였음