# OpenAI, 4o 이미지 생성 기능 공개

> Clean Markdown view of GeekNews topic #19963. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19963](https://news.hada.io/topic?id=19963)
- GeekNews Markdown: [https://news.hada.io/topic/19963.md](https://news.hada.io/topic/19963.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-26T09:45:24+09:00
- Updated: 2025-03-26T09:45:24+09:00
- Original source: [openai.com](https://openai.com/index/introducing-4o-image-generation/)
- Points: 12
- Comments: 3

## Summary

OpenAI는 GPT-4o에 정교하고 강력한 이미지 생성 기능을 통합하여 포토리얼리즘 수준의 고품질 이미지를 생성할 수 있게 했으며, 멀티모달 기능을 통해 언어와 이미지를 결합한 시각 콘텐츠 제작이 가능해 졌습니다. GPT-4o는 텍스트 렌더링, 대화형 이미지 생성, 지시사항의 정확한 반영 등 고도화된 기능을 포함하여 사용자가 원하는 이미지를 더 정확하게 만들 수 있도록 돕는다.   
  
특히, 사진을 업로드 한 뒤 **지브리, 심슨, 픽사** 등의 스타일로 이미지 변환이 쉽게 가능해져서 전세계적인 밈으로 떠오르고 있습니다.

## Topic Body

- OpenAI는 **이미지 생성**이 언어 모델의 핵심 기능 중 하나여야 한다고 오랫동안 믿어왔고, 이러한 비전을 바탕으로 가장 정교하고 **강력한 이미지 생성기를 GPT‑4o에 통합**함  
- GPT‑4o의 이미지 생성은 단순히 아름다운 이미지를 넘어 실제로 **유용하고 가치 있는 결과물**을 만들어냄  
- 정밀하고 정확하며, **포토리얼리즘 수준의 고품질 이미지** 생성이 가능함  
- 멀티모달 기능이 기본으로 탑재되어 있어 언어, 이미지, 문맥을 함께 활용한 시각 콘텐츠 제작이 가능함  
  
### 유용한 이미지 생성 기능  
- 인간은 고대 벽화부터 현대의 인포그래픽까지 시각적 이미지를 사용해 정보를 전달하고 설득하며 분석해왔음  
- 기존의 생성 모델들은 환상적이거나 인상적인 이미지를 만들 수 있지만, 실용적인 정보 전달용 이미지는 어려워했음  
- GPT‑4o의 이미지 생성은 로고나 다이어그램처럼 의미 전달에 정확한 이미지 생성에 강점을 가짐  
- 텍스트 정확한 렌더링, 사용자 대화 맥락 활용, 업로드된 이미지 기반 생성 등 고도화된 기능을 포함함  
- 이러한 기능은 사용자가 원하는 이미지를 더 정확하게 만들 수 있게 도와줌  
  
### 향상된 이미지 생성 능력  
- 온라인 이미지와 텍스트의 결합 분포를 학습하여 이미지와 언어, 이미지 간의 관계를 이해함  
- 훈련 후 보정 과정을 거쳐 시각적 유창성이 높아지고, 유용하고 일관성 있는 이미지 생성 가능함  
  
### 텍스트 렌더링 기능  
- 이미지는 수천 개의 단어를 담을 수 있지만, 위치에 맞는 텍스트 몇 개가 의미를 강화시킬 수 있음  
- GPT‑4o는 이미지에 정밀한 기호나 텍스트를 결합해 시각적 커뮤니케이션 도구로 활용 가능함  
  
### 대화형 이미지 생성  
- GPT‑4o는 이미지 생성을 본연의 기능으로 통합하여, 대화 흐름 속에서 이미지 생성과 수정 가능함  
- 예: 게임 캐릭터 디자인 시 외형을 지속적으로 유지하면서 반복 수정 가능함  
  
### 지시사항 정확한 반영  
- GPT‑4o는 자세한 프롬프트를 정확히 반영함  
- 타 시스템은 약 5-8개 객체까지 처리 가능하지만, GPT‑4o는 최대 10-20개 객체를 일관성 있게 생성 가능함  
- 객체 속성 및 관계 표현을 더 정확하게 유지함  
  
### 맥락 기반 학습  
- 사용자가 업로드한 이미지를 분석해 해당 이미지의 세부 정보를 이미지 생성에 반영함  
  
### 세계 지식과의 연결  
- GPT‑4o는 텍스트와 이미지 간의 지식을 연결하여 더 스마트하고 효율적인 이미지 생성이 가능함  
  
### 포토리얼리즘과 다양한 스타일  
- 다양한 이미지 스타일로 훈련되어 현실감 있는 이미지 생성과 스타일 변환 가능함  
  
### 모델의 한계점  
- 완벽한 모델은 아님  
- 초기 출시 이후 사용자 피드백과 데이터 기반으로 지속적인 개선 예정임  
  
### 안전성 확보 노력  
- 게임 개발, 역사 탐구, 교육 등 유익한 창작 활동을 장려하면서도 강력한 안전 기준 유지  
- 부적절한 이미지 생성을 방지하기 위해 철저한 정책 적용 중임  
- ## C2PA 및 내부 검색 도구를 통한 투명성 확보  
  - GPT‑4o가 생성한 모든 이미지에는 C2PA 메타데이터 포함되어 출처를 명확히 함  
  - 내부 검색 도구를 활용해 기술적 속성을 바탕으로 이미지 출처 확인 가능함  
- ## 부적절한 이미지 차단  
  - 아동 성적 이미지나 딥페이크 등 정책 위반 이미지 생성 요청을 차단함  
  - 실존 인물이 포함된 이미지에 대해서는 더 강화된 제한 적용  
  - 누드, 폭력적 이미지에 대한 철저한 사전 차단 시스템 운영  
- ## 추론 기반의 안전성 강화  
  - 인간이 작성한 정책 명세서를 기반으로 작동하는 추론 기반 LLM을 훈련함  
  - 정책의 모호함을 파악하고 해결하기 위해 사용되었으며, 멀티모달 기술과 결합해 입력 텍스트와 출력 이미지 모두 정책 기준에 맞도록 조정함  
  
### 이용 가능   
- 오늘부터 Plus, Pro, Team, Free 사용자에게 기본 이미지 생성기로 제공됨  
- Enterprise와 Edu는 곧 지원 예정  
- Sora에서도 사용 가능하며, 기존 DALL·E 모델은 별도 GPT로 접근 가능함  
- API를 통한 이미지 생성 기능은 몇 주 내로 개발자에게 제공 예정  
- 사용자는 원하는 이미지 설명만으로 생성 가능하며, 비율, 색상(hex 코드), 배경 투명 여부 등도 지정 가능함  
- 고정밀 이미지 생성으로 인해 렌더링 시간은 최대 1분 소요될 수 있음

## Comments


### Comment 36361

- Author: j2sus91
- Created: 2025-03-26T10:51:25+09:00
- Points: 1

아직 free에서는 안보이는 것 같은데 Plus, Pro, Team에만 열린거죠?

### Comment 36362

- Author: laeyoung
- Created: 2025-03-26T10:53:06+09:00
- Points: 1
- Parent comment: 36361
- Depth: 1

Pro에서는 채팅창 아래에 ... 눌러보면, "이미지 만들기 (업데이트됨)" 이렇게 되어 있는데 이거인듯 하네요.  
그런데 Best of # 는 안 나오던데 적용이 안된건지 된건지 헷갈리네요.

### Comment 36351

- Author: neo
- Created: 2025-03-26T09:45:24+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43474112) 
- 새로운 이미지 생성 방식이 토큰을 사용하여 확산 대신 픽셀 공간에서 추론을 수행함
  - 예를 들어, 빈 틱택토가 있는 노트패드를 그리게 하고 첫 번째 수를 두게 한 후, 사용자가 수를 두는 방식으로 진행할 수 있음
  - 그림 스타일을 변경하거나 "낮을 밤으로 바꾸기", "모자 씌우기" 등 정보 보존 번역도 가능함
  - 모델의 해상도가 제한적이지만, 이 분야의 발전으로 앱을 이미지로 단계별로 설계하고 코드를 작성할 수 있는 가능성이 있음
  - 모델이 외부 이미지에서 "추론"을 계속할 수 있어, 원래 생성물이 좋지 않아도 개선 가능함
  - 모델이 빨라지면, LLM 이벤트에 기반하여 앱의 다음 프레임을 생성하는 진정한 생성 UI를 상상할 수 있음
  - 확산 모델도 이와 유사한 작업을 더 빠르게 수행할 수 있음

- 4o Image Generation 소개: 가장 진보된 이미지 생성기임
  - Google의 Gemini 2.5: 가장 지능적인 AI 모델임
  - Gemini 2.0 소개: 가장 능력 있는 AI 모델임
  - 이러한 트렌드가 사라지고 Apple이 효과적인 것을 사용하여 다른 회사들이 새로운 용어를 복사하기를 바람

- 왜 o1과의 벤치마크를 추가하지 않는지 궁금함

- OpenAI의 GPT-4o Image Generation 라이브 스트림은 느리며, 이미지당 약 30초가 소요됨
  - Sam Altman은 "느리지만 생성된 이미지가 가치 있다"고 설명함
  - 확산 접근 대신, 원래 DALL-E와 유사하게 이미지 토큰을 생성하고 디코딩함
  - Google의 Gemini는 몇 초 만에 이미지를 생성하고 편집할 수 있음
  - 아직 API가 없으며, 느림으로 인해 경쟁사의 $0.03+/이미지보다 비용이 더 많이 들 것으로 예상됨

- 시도해본 결과, 딸의 생일 초대장을 한 번에 생성할 수 있었음
  - 원하는 요소와 스타일을 정확히 맞춤
  - 날짜, 장소 등 세부 정보를 추가하도록 요청했을 때도 잘 수행함
  - 이전 모델은 절반도 못 따라왔음

- 과포화된 CG/만화 스타일이 아닌 것이 만족스러움

- 주어진 프롬프트가 4o 또는 Dall-E에 의해 처리되었는지 확인할 방법이 있는지 궁금함
  - 현재 프롬프트는 여전히 후자에 의해 처리되는 것 같음
  - 장기 계획은 4o로 완전히 이동하고 Dall-E를 별도의 탭으로 이동하는 것임

- 와인 잔 테스트에서 여전히 실패함

- "Best of 8" 태그가 붙은 많은 이미지가 얼마나 선택된 것인지 궁금함
  - 세 개의 무료 이미지 중 두 개는 인상적이었고 하나는 실패함

- 새로운 모델로 반복 편집의 예시가 있음
  - 이전 모델보다 훨씬 나아졌지만 여전히 손가락이 너무 많거나 팔이 너무 많은 몸을 생성함