생성형 모델의 현황
(nrehiew.github.io)- 2024년 한 해 동안 텍스트 및 이미지 생성 분야 모두 큰 발전이 있었음
- OpenAI가 독주하던 초기와 달리, 지난 연말에는 Anthropic, DeepSeek, Qwen 등 다양한 연구소가 경쟁적으로 전선을 확장하고 있음
- 2024~2025년 연구 동향을 정리하고, 향후 기대되는 분야에 대해 간단히 정리
“폐쇄형 소스만으로 쌓아올린 해자는 오래가지 못함
OpenAI 역시 다른 이들의 추격을 막을 수 없을 것임
결국 우리 조직과 문화를 키워 혁신을 할 수 있는 인재를 길러내는 것, 그것이 진정한 해자임”
─ Liang Wenfeng, CEO of DeepSeek
# Language
- 대규모 언어 모델(LLM)이 현재 AI 열풍의 핵심이며, 가장 많은 연구와 투자가 이루어지고 있음
- 2024년에는 모델 성능과 새로운 스케일링 패러다임 모두에서 큰 진전이 있었음
-
Architecture
- 새로운 아키텍처(Mamba, xLSTM 등)가 시도되었지만, 적어도 지금으로서는 decoder-only Transformer가 주류를 이룰 전망임
- Dense Transformer
- Llama 3가 대표적이며, Meta가 vanilla Dense Transformer를 극한까지 최적화하고 있음
- Noam Transformer라 불리는 형태(Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE 등)가 사실상 표준으로 자리 잡고 있음
- DeepSeek이 내놓은 Multi Latent Attention(MLA) 같은 방식이 더 주목받을 것이며, RoPE를 대체하거나 수정한 기법이 등장할 가능성도 있음
- Mixture-of-Experts
- GPT-4가 거대한 MoE라는 소문이 퍼지며, 2024년에 다시금 부상함
- 오픈소스 영역에서는 Mistral의 Mixtral, DeepSeek v2·v3 등이 대표적임
- MoE는 서빙이 쉽지 않다는 단점이 있지만, DeepSeek이 적극적으로 연구를 진행 중임
- 향후 라우팅 메커니즘, 각 레이어별 MoE 적용 방식, 전문가 해석 가능성 등을 둘러싸고 여러 방향의 연구가 기대됨
-
Tokenization
- Byte Pair Encoding을 대체할 혁신이 필요하다는 의견이 많지만, 아직 큰 문제는 없어서 사용이 지속되고 있음
- Meta가 CoT를 latent space에서 처리하거나(byte-based) Transformer를 bytes 단위로 학습시키는 두 가지 시도를 제안해 관심을 끔
- Byte Latent Transformer(BLT)에서는 바이트 입력 처리를 위해 Encoder/Decoder 구조를 사용함
- 바이트 디코더의 품질이 병목이 되지 않을까 하는 우려가 있음
-
Reasoning
- 2024년 하반기에는 모델의 수학·과학·코딩 추론 능력이 급격히 향상됨(o1, o3, DeepSeek r1 등)
- 이는 “inference-time compute”라는 새로운 스케일링 패러다임과 연관 있음
- 모델이 매우 긴 Chain of Thought를 생성하며, 그 과정을 자체적으로 검증하고 활용하는 방식임
- OpenAI의 o1, o3가 어떻게 만들어졌는지는 비공개지만, “Let’s Verify Step by Step” 논문 등 RL 접근 방식을 활용했을 가능성이 높음
- 향후 Anthropic이나 다른 랩에서도 유사한 reasoner를 선보일 것으로 예상함
- STEM 영역에 편중된 방식에서 벗어나 더 광범위한 도메인(창의적 글쓰기 등)에도 적용될지 관심을 모음
-
Distillation
- o1 출시 당시 OpenAI가 Chain of Thought를 공개하지 않은 것은 모델 출력으로 다시 훈련시키는 사례(DeepSeek v3 등)가 성능 향상에 크게 기여하기 때문이라는 추측이 있음
- DeepSeek v3는 reasoner 특유의 긴 CoT가 그대로 재현되지는 않지만, 내부적으로 모드를 구분해 필요한 상황에서 추론하는 것으로 보임
- 작은 모델(o1-mini 등)이 큰 모델 성능에 근접하는지, 혹은 내부에 비밀스러운 증류 기법이 있는지 여부도 흥미로운 연구 주제임
# Image
- 이미지는 여러 중소 연구소가 뛰어들어 혁신이 빠르게 진행됨
- 현재 주요 모델(Flux, Stable Diffusion 3, MidJourney, Sora 등)은 Diffusion Transformer 기반이며, Flow Matching 프레임워크가 주류임
-
Architecture
- Diffusion Transformer에 적응형 정규화, MM-DIT 구조 등이 결합된 형태가 흔히 쓰임
- 텍스트 인코더를 CLIP 대신 더 소형화된 LLM으로 대체하려는 시도가 2025년에 늘어날 것으로 보임
-
Framework
- 전통적인 확률적 접근이 아닌 Flow Matching 방식을 선호하는 흐름이 형성됨
- AutoRegressive 모델이 다시 부상할 가능성도 있으며, Visual Autoregressive Modelling 논문이 큰 관심을 받음
- xAI가 공개한 이미지 생성 기법도 오토리그레시브로 추정되나, 구체적인 이유는 알려지지 않음
# Multimodality
- 이미 OpenAI, Anthropic 등에서 이미지를 모델에 입력하는 기능을 제공해 왔으나, 2024년 상반기에 보다 오픈된 형태의 멀티모달 연구가 활발해짐
-
Visual Language Models
- Qwen, PaliGemma 등 다양한 VLM이 등장해 이미지 캡셔닝이나 문서 파싱에 활용됨
- Vision Transformer와 사전 학습된 LLM을 연결하는 구조가 표준으로 자리 잡음
- 2025년에는 이런 VLM이 Omni-Models로 통합될 전망임
-
Omni-Modal Models
- OpenAI가 GPT-4o로 이미지까지 생성한 사례가 있으나, 완전 공개는 이루어지지 않음
- Chameleon 등에서 이미지 토크나이저+디토크나이저를 이용한 초기 융합 모델을 시도함
- 비텍스트 출력까지 discrete token으로 처리하는 방식에 대한 찬반 논의가 있음
- Llama 4가 일찍이 옴니모달로 훈련 중이라는 소문이 있어 기대를 모음
# Agents and Human-AI Interfaces
- “AI Agent” 정의가 애매하지만, LLM에 도구 사용 권한을 주어 목표를 스스로 달성하게 하는 방식을 일단 여기서는 에이전트라 칭함
- SWE-Bench 기준으로 2025년 말에는 코드 디버깅과 기능 구현을 일정 수준에서 자동화할 것으로 예상함
- 그러나 엔지니어 대체 수준으로 가긴 이르며, 여행 일정이나 정보 검색처럼 오류 허용 범위가 넓은 영역부터 도입될 전망임
- Cursor 같은 에디터형 UI가 에이전트 활용에 더 적합할 수 있음
- 에이전트 호출은 토큰 비용이 크므로, 완전 자율 에이전트가 비용 대비 효율이 있을지는 미지수임
# 2025
- AI 발전이 매우 빠르다는 말은 익숙하지만, 실제로는 그 속도를 가늠하기조차 어려울 만큼 변화가 큼
- 이 글에서는 텍스트와 이미지 중심의 현황과 2025년 기대 요소만 간략히 다루었음 . 커버하지 못한 영역 중 주목할 만한 분야로는:
- 학습 최적화 (Muon, NanoGPT speedruns)
- 비디오 모델 (일관성·추론 속도 문제 해결)
- 양자화 (1비트 양자화, FP8 이하 정밀도 등)
- 모델 해석 가능성 연구
- 평가·벤치마크 (SWE-Bench 같은 실제 작업 기반 평가 늘어나길 희망함)
- 2025년에 더 많은 발전이 이루어지길 기대함