# 생성형 모델의 현황

> Clean Markdown view of GeekNews topic #18595. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18595](https://news.hada.io/topic?id=18595)
- GeekNews Markdown: [https://news.hada.io/topic/18595.md](https://news.hada.io/topic/18595.md)
- Type: news
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2025-01-06T10:21:01+09:00
- Updated: 2025-01-06T10:21:01+09:00
- Original source: [nrehiew.github.io](https://nrehiew.github.io/blog/2024/)
- Points: 20
- Comments: 2

## Summary

2024년에는 텍스트와 이미지 생성 분야에서 큰 발전이 있었으며, OpenAI 외에도 Anthropic, DeepSeek, Qwen 등 다양한 연구소가 경쟁적으로 참여하고 있습니다. 대규모 언어 모델(LLM)과 새로운 아키텍처, 토크나이제이션, 추론 능력 향상 등에서 중요한 진전이 있었고, 이미지 생성 분야에서는 Diffusion Transformer 기반 모델들이 주류를 이루고 있습니다. 멀티모달 연구와 AI 에이전트 개발도 활발히 진행 중이며, 2025년에는 이러한 기술들이 더욱 발전할 것으로 기대됩니다.

## Topic Body

- 2024년 한 해 동안 텍스트 및 이미지 생성 분야 모두 큰 발전이 있었음  
- OpenAI가 독주하던 초기와 달리, 지난 연말에는 Anthropic, DeepSeek, Qwen 등 다양한 연구소가 경쟁적으로 전선을 확장하고 있음  
- 2024~2025년 연구 동향을 정리하고, 향후 기대되는 분야에 대해 간단히 정리  
  > “폐쇄형 소스만으로 쌓아올린 해자는 오래가지 못함  
  > OpenAI 역시 다른 이들의 추격을 막을 수 없을 것임  
  > 결국 우리 조직과 문화를 키워 혁신을 할 수 있는 인재를 길러내는 것, 그것이 진정한 해자임”  
  > ─ Liang Wenfeng, CEO of DeepSeek  
### # Language  
- 대규모 언어 모델(LLM)이 현재 AI 열풍의 핵심이며, 가장 많은 연구와 투자가 이루어지고 있음  
- 2024년에는 모델 성능과 새로운 스케일링 패러다임 모두에서 큰 진전이 있었음  
- **Architecture**  
  - 새로운 아키텍처(Mamba, xLSTM 등)가 시도되었지만, 적어도 지금으로서는 decoder-only Transformer가 주류를 이룰 전망임  
  - Dense Transformer  
    - Llama 3가 대표적이며, Meta가 vanilla Dense Transformer를 극한까지 최적화하고 있음  
    - Noam Transformer라 불리는 형태(Decoder-Only, RMSNorm, Group Query Attention, GLU, RoPE 등)가 사실상 표준으로 자리 잡고 있음  
    - DeepSeek이 내놓은 Multi Latent Attention(MLA) 같은 방식이 더 주목받을 것이며, RoPE를 대체하거나 수정한 기법이 등장할 가능성도 있음  
  - Mixture-of-Experts  
    - GPT-4가 거대한 MoE라는 소문이 퍼지며, 2024년에 다시금 부상함  
    - 오픈소스 영역에서는 Mistral의 Mixtral, DeepSeek v2·v3 등이 대표적임  
    - MoE는 서빙이 쉽지 않다는 단점이 있지만, DeepSeek이 적극적으로 연구를 진행 중임  
    - 향후 라우팅 메커니즘, 각 레이어별 MoE 적용 방식, 전문가 해석 가능성 등을 둘러싸고 여러 방향의 연구가 기대됨  
- **Tokenization**  
  - Byte Pair Encoding을 대체할 혁신이 필요하다는 의견이 많지만, 아직 큰 문제는 없어서 사용이 지속되고 있음  
  - Meta가 CoT를 latent space에서 처리하거나(byte-based) Transformer를 bytes 단위로 학습시키는 두 가지 시도를 제안해 관심을 끔  
  - Byte Latent Transformer(BLT)에서는 바이트 입력 처리를 위해 Encoder/Decoder 구조를 사용함  
  - 바이트 디코더의 품질이 병목이 되지 않을까 하는 우려가 있음  
- **Reasoning**  
  - 2024년 하반기에는 모델의 수학·과학·코딩 추론 능력이 급격히 향상됨(o1, o3, DeepSeek r1 등)  
  - 이는 “inference-time compute”라는 새로운 스케일링 패러다임과 연관 있음  
    - 모델이 매우 긴 Chain of Thought를 생성하며, 그 과정을 자체적으로 검증하고 활용하는 방식임  
  - OpenAI의 o1, o3가 어떻게 만들어졌는지는 비공개지만, “Let’s Verify Step by Step” 논문 등 RL 접근 방식을 활용했을 가능성이 높음  
  - 향후 Anthropic이나 다른 랩에서도 유사한 reasoner를 선보일 것으로 예상함  
  - STEM 영역에 편중된 방식에서 벗어나 더 광범위한 도메인(창의적 글쓰기 등)에도 적용될지 관심을 모음  
- **Distillation**  
  - o1 출시 당시 OpenAI가 Chain of Thought를 공개하지 않은 것은 모델 출력으로 다시 훈련시키는 사례(DeepSeek v3 등)가 성능 향상에 크게 기여하기 때문이라는 추측이 있음  
  - DeepSeek v3는 reasoner 특유의 긴 CoT가 그대로 재현되지는 않지만, 내부적으로 모드를 구분해 필요한 상황에서 추론하는 것으로 보임  
  - 작은 모델(o1-mini 등)이 큰 모델 성능에 근접하는지, 혹은 내부에 비밀스러운 증류 기법이 있는지 여부도 흥미로운 연구 주제임  
  
### # Image  
- 이미지는 여러 중소 연구소가 뛰어들어 혁신이 빠르게 진행됨  
- 현재 주요 모델(Flux, Stable Diffusion 3, MidJourney, Sora 등)은 Diffusion Transformer 기반이며, Flow Matching 프레임워크가 주류임  
- **Architecture**  
  - Diffusion Transformer에 적응형 정규화, MM-DIT 구조 등이 결합된 형태가 흔히 쓰임  
  - 텍스트 인코더를 CLIP 대신 더 소형화된 LLM으로 대체하려는 시도가 2025년에 늘어날 것으로 보임  
- **Framework**  
  - 전통적인 확률적 접근이 아닌 Flow Matching 방식을 선호하는 흐름이 형성됨  
  - AutoRegressive 모델이 다시 부상할 가능성도 있으며, Visual Autoregressive Modelling 논문이 큰 관심을 받음  
  - xAI가 공개한 이미지 생성 기법도 오토리그레시브로 추정되나, 구체적인 이유는 알려지지 않음  
  
### # Multimodality  
- 이미 OpenAI, Anthropic 등에서 이미지를 모델에 입력하는 기능을 제공해 왔으나, 2024년 상반기에 보다 오픈된 형태의 멀티모달 연구가 활발해짐  
- **Visual Language Models**  
  - Qwen, PaliGemma 등 다양한 VLM이 등장해 이미지 캡셔닝이나 문서 파싱에 활용됨  
  - Vision Transformer와 사전 학습된 LLM을 연결하는 구조가 표준으로 자리 잡음  
  - 2025년에는 이런 VLM이 Omni-Models로 통합될 전망임  
- **Omni-Modal Models**  
  - OpenAI가 GPT-4o로 이미지까지 생성한 사례가 있으나, 완전 공개는 이루어지지 않음  
  - Chameleon 등에서 이미지 토크나이저+디토크나이저를 이용한 초기 융합 모델을 시도함  
  - 비텍스트 출력까지 discrete token으로 처리하는 방식에 대한 찬반 논의가 있음  
  - Llama 4가 일찍이 옴니모달로 훈련 중이라는 소문이 있어 기대를 모음  
  
### # Agents and Human-AI Interfaces  
- “AI Agent” 정의가 애매하지만, LLM에 도구 사용 권한을 주어 목표를 스스로 달성하게 하는 방식을 일단 여기서는 에이전트라 칭함  
- SWE-Bench 기준으로 2025년 말에는 코드 디버깅과 기능 구현을 일정 수준에서 자동화할 것으로 예상함  
- 그러나 엔지니어 대체 수준으로 가긴 이르며, 여행 일정이나 정보 검색처럼 오류 허용 범위가 넓은 영역부터 도입될 전망임  
- Cursor 같은 에디터형 UI가 에이전트 활용에 더 적합할 수 있음  
- 에이전트 호출은 토큰 비용이 크므로, 완전 자율 에이전트가 비용 대비 효율이 있을지는 미지수임  
  
### # 2025  
- AI 발전이 매우 빠르다는 말은 익숙하지만, 실제로는 그 속도를 가늠하기조차 어려울 만큼 변화가 큼  
- 이 글에서는 텍스트와 이미지 중심의 현황과 2025년 기대 요소만 간략히 다루었음 . 커버하지 못한 영역 중 주목할 만한 분야로는:  
  - 학습 최적화 (Muon, NanoGPT speedruns)  
  - 비디오 모델 (일관성·추론 속도 문제 해결)  
  - 양자화 (1비트 양자화, FP8 이하 정밀도 등)  
  - 모델 해석 가능성 연구  
  - 평가·벤치마크 (SWE-Bench 같은 실제 작업 기반 평가 늘어나길 희망함)  
- 2025년에 더 많은 발전이 이루어지길 기대함

## Comments


### Comment 33050

- Author: lonzino
- Created: 2025-01-06T18:40:04+09:00
- Points: 1

감사합니다

### Comment 33047

- Author: zkdlfrlwl2
- Created: 2025-01-06T17:10:52+09:00
- Points: 1

깔끔한 정리 감사합니다