# DeepSeek R1의 추론 능력을 바탕으로 100분의 1 작은 ModernBERT 훈련하기

> Clean Markdown view of GeekNews topic #18977. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18977](https://news.hada.io/topic?id=18977)
- GeekNews Markdown: [https://news.hada.io/topic/18977.md](https://news.hada.io/topic/18977.md)
- Type: news
- Author: [sigridjineth](https://news.hada.io/@sigridjineth)
- Published: 2025-01-30T11:21:53+09:00
- Updated: 2025-01-30T11:21:53+09:00
- Original source: [link.medium.com](https://link.medium.com/vro8YIqAyQb)
- Points: 7
- Comments: 0

## Summary

DeepSeek R1으로 생성된 라벨을 활용하여 ModernBERT 모델이 논문이 새로운 데이터셋을 소개하는지를 예측하도록 학습할 수 있다. 이 모델은 실무 환경에서 대규모 리소스 없이도 사용할 수 있으며, LLM의 추론 능력을 간접적으로 전이받아 높은 정확도를 유지한다. 특히, RAG에서 단순한 텍스트 매칭으로 해결되지 않는 문제에 대해 라벨이 부족할 때 유용하다.

## Topic Body

DeepSeek R1 으로부터 만든 라벨을 사용해 ModernBERT 모델이 “논문이 새 데이터셋을 소개하는지”를 예측하도록 학습할 수 있다. 이렇게 만들어진 모델은 곧바로 사용이 가능하며, 실무 서비스 환경에서 추론만 할 때는 LLM처럼 거대한 리소스가 필요 없다. 그럼에도 레이블이 필요한 분류 문제에서 LLM의 추론 능력을 간접적으로 전이받은 것이므로 어느 정도 정확도가 잘 유지된다.  
  
특히 RAG 에서 간단한 Text 매칭 만으로는 해결되지 않고 어느 정도 추론이 필요한 경우, 라벨이 많이 부족하거나 만들기 어려울 때, DeepSeek이 생성한 라벨을 기반으로 ModernBERT 모델을 학습시키는 방식이 유용하다.

## Comments


_No public comments on this page._