10P by neo 2일전 | favorite | 댓글 1개
  • ModernBERT는 최신 기술을 적용한 새로운 인코더 전용 모델로, BERT와 그 후속 모델들보다 속도와 정확성에서 개선을 이룸
  • 8192 토큰의 긴 문맥 길이를 지원하며, 코드 데이터도 포함하여 훈련됨
  • 다양한 응용 분야에서 사용 가능하며, 특히 대규모 코드 검색 및 새로운 IDE 기능에 적합함

소개

  • BERT는 2018년에 출시되어 여전히 널리 사용되고 있는 모델로, 특히 검색, 분류, 엔티티 추출에 적합함.
  • ModernBERT는 BERT의 대체 모델로, 속도와 정확성에서 Pareto 개선을 이룸.
  • 긴 문맥 길이와 코드 데이터 포함으로 새로운 응용 분야를 개척함.

디코더 전용 모델

  • GPT, Llama, Claude와 같은 디코더 전용 모델은 생성 모델로, 인간과 유사한 콘텐츠 생성이 가능함.
  • 그러나 이러한 모델은 크고 느리며, 많은 비용이 소요됨.
  • 인코더 전용 모델은 실용적이고 효율적이며, 많은 작업에 적합함.

인코더 전용 모델

  • 인코더 전용 모델은 입력을 숫자 벡터로 변환하여 표현함.
  • 디코더 전용 모델은 미래 토큰을 볼 수 없지만, 인코더 전용 모델은 양방향으로 토큰을 볼 수 있어 효율적임.
  • 인코더 전용 모델은 다양한 응용 분야에서 사용되며, 특히 RAG 파이프라인과 추천 시스템에서 중요함.

성능 개요

  • ModernBERT는 다양한 작업에서 높은 정확성을 보이며, DeBERTaV3보다 빠르고 메모리 사용량이 적음.
  • 긴 문맥 추론에서 다른 고품질 모델보다 최대 3배 빠름.
  • 코드 검색에서 독보적인 성능을 보이며, 새로운 응용 프로그램 개발 가능성을 열어줌.

효율성

  • ModernBERT는 실용성을 중시하며, 다양한 입력 길이에서 빠른 성능을 보임.
  • 긴 문맥 입력에서 다른 모델보다 2-3배 빠름.
  • 더 큰 배치 크기를 사용할 수 있어, 작은 GPU에서도 효과적으로 사용 가능함.

ModernBERT의 현대성

  • ModernBERT는 최신 엔지니어링을 인코더 모델에 적용하여 개선을 이룸.
  • Transformer++ 구조를 채택하여 성능을 향상시킴.
  • 효율성과 현대 데이터 규모 및 소스를 중시함.

새로운 Transformer

  • ModernBERT는 Transformer++ 구조를 채택하여 성능을 향상시킴.
  • RoPE를 사용하여 위치 인코딩을 개선하고, GeGLU 레이어를 사용하여 MLP 레이어를 대체함.
  • 불필요한 바이어스 항을 제거하여 파라미터 사용을 최적화함.

레이스 트랙을 위한 Honda Civic 업그레이드

  • ModernBERT는 속도를 중시하며, 다양한 응용 분야에서 효율적으로 사용 가능함.
  • Flash Attention 2의 속도 개선을 활용하여 효율성을 높임.
  • Alternating Attention, Unpadding, Sequence Packing을 통해 계산 낭비를 줄임.

하드웨어에 대한 주의

  • ModernBERT는 하드웨어 설계를 중시하여 다양한 GPU에서 최적의 성능을 발휘하도록 설계됨.
  • 깊고 좁은 구조와 하드웨어 효율성을 고려하여 모델을 설계함.

훈련

  • ModernBERT는 다양한 소스의 데이터를 사용하여 훈련되며, 2조 개의 토큰을 사용함.
  • 세 단계의 훈련 과정을 통해 다양한 작업에서 우수한 성능을 보임.
  • 초기 훈련 단계에서 배치 크기 워밍업을 사용하여 속도를 높임.

결론

  • ModernBERT는 최신 기술을 적용하여 인코더 전용 모델의 성능을 개선함.
  • 다양한 작업에서 강력한 성능을 제공하며, 크기/성능 비율이 매력적임.
  • 커뮤니티의 창의적인 사용을 기대하며, 데모를 위한 공모전을 진행 중임.
Hacker News 의견
  • Answer.AI의 Jeremy는 새로운 모델 출시가 다양한 스타트업과 프로젝트의 기초가 될 수 있을 것이라고 기대함
    • 블로그 게시물에 언급된 내용은 빙산의 일각에 불과하며, 모델을 다양한 방식으로 세밀하게 조정할 수 있는 많은 기회가 있음
  • 인코더 전용 모델은 매달 10억 건 이상의 다운로드를 기록하며, 디코더 전용 모델보다 세 배 더 많음
    • 이는 디코더 사용자가 Hugging Face를 사용하지 않고 API 호출을 사용하기 때문이기도 하고, 인코더가 대부분의 진지한 ML 애플리케이션의 숨은 영웅이기 때문임
    • 랭킹, 추천, RAG 등을 수행하려면 인코더가 필요하며, 일반적으로 BERT, RoBERTa, ALBERT 계열의 모델이 사용됨
  • 몇 년 전 BERT 모델을 요약 등에 사용했을 때 기적처럼 느껴졌음
    • Ollama가 라이브러리에 추가할 때까지 기다릴 예정이며, 최근 LLM의 속도 향상이 인상적임
    • Apple은 BERT 모델을 개발자 SDK에서 지원해 왔으며, 새로운 기술로 얼마나 빨리 업데이트할지 궁금함
  • 논문을 읽고 로컬 주의 레이어 추가에 감명받았음
    • Lucidrains 저장소에서 몇 년간 실험했으며, 더 발전하지 않은 것이 놀라웠음
    • 추론 속도가 훌륭하며, NSP 제거와 마스킹 증가, RoPE 및 긴 컨텍스트 등 많은 개선이 이루어졌음
    • "ModernTinyBERT"를 만들고 싶지만, 레이어가 복잡하게 얽혀 있어 어려움
  • BERT 모델이 현재 어디에서 사용되는지 궁금함
    • 특정 작업에서 LLM보다 더 나은 대안으로 이해했으며, 양방향으로 문맥을 더 잘 이해할 수 있음
    • 그러나 LLM도 강력하여 차이가 미미할 수 있음
  • 모델을 SentenceTransformers로 세밀하게 조정할 수 있는지 궁금함
    • ColBERT가 벤치마크에 포함되어 있으며, answerai-colbert-small-v2가 곧 출시될 예정인지 궁금함
  • ModernBERT에 대한 RAG 평가를 본 사람이 있는지 궁금함
  • Answer.ai 팀이 오늘 성과를 내고 있으며, Jeremy와 팀에게 잘했다고 칭찬함
  • 모델이 영어만 지원하는지, 다국어 모델이나 다른 언어의 단일 언어 모델을 출판할 계획이 있는지 궁금함
  • 모델 이름을 ERNIE로 짓지 않은 것이 아쉬운 기회였음