DeepSeek R1의 추론 능력을 바탕으로 100분의 1 작은 ModernBERT 훈련하기

(link.medium.com)

7P by sigridjineth 2025-01-30 | ★ favorite | 댓글과 토론

DeepSeek R1 으로부터 만든 라벨을 사용해 ModernBERT 모델이 “논문이 새 데이터셋을 소개하는지”를 예측하도록 학습할 수 있다. 이렇게 만들어진 모델은 곧바로 사용이 가능하며, 실무 서비스 환경에서 추론만 할 때는 LLM처럼 거대한 리소스가 필요 없다. 그럼에도 레이블이 필요한 분류 문제에서 LLM의 추론 능력을 간접적으로 전이받은 것이므로 어느 정도 정확도가 잘 유지된다.

특히 RAG 에서 간단한 Text 매칭 만으로는 해결되지 않고 어느 정도 추론이 필요한 경우, 라벨이 많이 부족하거나 만들기 어려울 때, DeepSeek이 생성한 라벨을 기반으로 ModernBERT 모델을 학습시키는 방식이 유용하다.

DeepSeek R1의 추론 능력을 바탕으로 100분의 1 작은 ModernBERT 훈련하기

함께 보면 좋은 글 β