BERT는 텍스트 디퓨전 모델이었다: RoBERTa로 30분 만에 만든 생성 AI
(aisparkup.com)2018년부터 사용해온 BERT의 학습 방식이 사실 최신 디퓨전 모델과 같은 원리였다는 사실이 밝혀졌습니다. 이는 단순한 학술적 발견을 넘어, 기존 BERT 모델을 GPT처럼 텍스트를 생성하는 모델로 전환할 수 있다는 실용적 가능성을 보여줍니다.
핵심 포인트:
- BERT의 마스크 언어 모델링(MLM)은 고정된 비율의 디퓨전 과정: 7년간 사용해온 BERT의 학습 방식이 사실 노이즈 제거 방식의 디퓨전과 동일한 원리. 마스킹 비율을 가변적으로 조정하면 완전한 생성 모델로 전환 가능
- 30분 학습만으로 GPT-2 수준의 텍스트 생성 구현: 기존 RoBERTa 모델을 약간의 파인튜닝으로 텍스트 생성 모델로 전환. 단어를 하나씩 예측하는 GPT 방식과 달리 전체 문장을 점진적으로 복원하는 방식으로 작동
- 텍스트 생성의 새로운 가능성: GPT의 자기회귀 방식 외에 디퓨전 기반 생성이라는 대안적 접근법 제시. 구글 DeepMind의 Gemini Diffusion 등 새로운 흐름의 시작