OpenAI, 4o 이미지 생성 기능 공개

(openai.com)

12P by GN⁺ 2025-03-26 | ★ favorite | 댓글 3개

OpenAI는 이미지 생성이 언어 모델의 핵심 기능 중 하나여야 한다고 오랫동안 믿어왔고, 이러한 비전을 바탕으로 가장 정교하고 강력한 이미지 생성기를 GPT‑4o에 통합함
GPT‑4o의 이미지 생성은 단순히 아름다운 이미지를 넘어 실제로 유용하고 가치 있는 결과물을 만들어냄
정밀하고 정확하며, 포토리얼리즘 수준의 고품질 이미지 생성이 가능함
멀티모달 기능이 기본으로 탑재되어 있어 언어, 이미지, 문맥을 함께 활용한 시각 콘텐츠 제작이 가능함

유용한 이미지 생성 기능

인간은 고대 벽화부터 현대의 인포그래픽까지 시각적 이미지를 사용해 정보를 전달하고 설득하며 분석해왔음
기존의 생성 모델들은 환상적이거나 인상적인 이미지를 만들 수 있지만, 실용적인 정보 전달용 이미지는 어려워했음
GPT‑4o의 이미지 생성은 로고나 다이어그램처럼 의미 전달에 정확한 이미지 생성에 강점을 가짐
텍스트 정확한 렌더링, 사용자 대화 맥락 활용, 업로드된 이미지 기반 생성 등 고도화된 기능을 포함함
이러한 기능은 사용자가 원하는 이미지를 더 정확하게 만들 수 있게 도와줌

향상된 이미지 생성 능력

온라인 이미지와 텍스트의 결합 분포를 학습하여 이미지와 언어, 이미지 간의 관계를 이해함
훈련 후 보정 과정을 거쳐 시각적 유창성이 높아지고, 유용하고 일관성 있는 이미지 생성 가능함

텍스트 렌더링 기능

이미지는 수천 개의 단어를 담을 수 있지만, 위치에 맞는 텍스트 몇 개가 의미를 강화시킬 수 있음
GPT‑4o는 이미지에 정밀한 기호나 텍스트를 결합해 시각적 커뮤니케이션 도구로 활용 가능함

대화형 이미지 생성

GPT‑4o는 이미지 생성을 본연의 기능으로 통합하여, 대화 흐름 속에서 이미지 생성과 수정 가능함
예: 게임 캐릭터 디자인 시 외형을 지속적으로 유지하면서 반복 수정 가능함

지시사항 정확한 반영

GPT‑4o는 자세한 프롬프트를 정확히 반영함
타 시스템은 약 5-8개 객체까지 처리 가능하지만, GPT‑4o는 최대 10-20개 객체를 일관성 있게 생성 가능함
객체 속성 및 관계 표현을 더 정확하게 유지함

맥락 기반 학습

사용자가 업로드한 이미지를 분석해 해당 이미지의 세부 정보를 이미지 생성에 반영함

세계 지식과의 연결

GPT‑4o는 텍스트와 이미지 간의 지식을 연결하여 더 스마트하고 효율적인 이미지 생성이 가능함

포토리얼리즘과 다양한 스타일

다양한 이미지 스타일로 훈련되어 현실감 있는 이미지 생성과 스타일 변환 가능함

모델의 한계점

완벽한 모델은 아님
초기 출시 이후 사용자 피드백과 데이터 기반으로 지속적인 개선 예정임

안전성 확보 노력

게임 개발, 역사 탐구, 교육 등 유익한 창작 활동을 장려하면서도 강력한 안전 기준 유지
부적절한 이미지 생성을 방지하기 위해 철저한 정책 적용 중임
C2PA 및 내부 검색 도구를 통한 투명성 확보
- GPT‑4o가 생성한 모든 이미지에는 C2PA 메타데이터 포함되어 출처를 명확히 함
- 내부 검색 도구를 활용해 기술적 속성을 바탕으로 이미지 출처 확인 가능함
부적절한 이미지 차단
- 아동 성적 이미지나 딥페이크 등 정책 위반 이미지 생성 요청을 차단함
- 실존 인물이 포함된 이미지에 대해서는 더 강화된 제한 적용
- 누드, 폭력적 이미지에 대한 철저한 사전 차단 시스템 운영
추론 기반의 안전성 강화
- 인간이 작성한 정책 명세서를 기반으로 작동하는 추론 기반 LLM을 훈련함
- 정책의 모호함을 파악하고 해결하기 위해 사용되었으며, 멀티모달 기술과 결합해 입력 텍스트와 출력 이미지 모두 정책 기준에 맞도록 조정함

이용 가능

오늘부터 Plus, Pro, Team, Free 사용자에게 기본 이미지 생성기로 제공됨
Enterprise와 Edu는 곧 지원 예정
Sora에서도 사용 가능하며, 기존 DALL·E 모델은 별도 GPT로 접근 가능함
API를 통한 이미지 생성 기능은 몇 주 내로 개발자에게 제공 예정
사용자는 원하는 이미지 설명만으로 생성 가능하며, 비율, 색상(hex 코드), 배경 투명 여부 등도 지정 가능함
고정밀 이미지 생성으로 인해 렌더링 시간은 최대 1분 소요될 수 있음

GeekNews Weekly에 포함된 글입니다. 에디터 코멘트 보기

j2sus91 2025-03-26 [-]

아직 free에서는 안보이는 것 같은데 Plus, Pro, Team에만 열린거죠?

답변달기

laeyoung 2025-03-26 [-]

Pro에서는 채팅창 아래에 ... 눌러보면, "이미지 만들기 (업데이트됨)" 이렇게 되어 있는데 이거인듯 하네요.
그런데 Best of # 는 안 나오던데 적용이 안된건지 된건지 헷갈리네요.

답변달기

GN⁺ 2025-03-26 [-]

Hacker News 의견

새로운 이미지 생성 방식이 토큰을 사용하여 확산 대신 픽셀 공간에서 추론을 수행함
- 예를 들어, 빈 틱택토가 있는 노트패드를 그리게 하고 첫 번째 수를 두게 한 후, 사용자가 수를 두는 방식으로 진행할 수 있음
- 그림 스타일을 변경하거나 "낮을 밤으로 바꾸기", "모자 씌우기" 등 정보 보존 번역도 가능함
- 모델의 해상도가 제한적이지만, 이 분야의 발전으로 앱을 이미지로 단계별로 설계하고 코드를 작성할 수 있는 가능성이 있음
- 모델이 외부 이미지에서 "추론"을 계속할 수 있어, 원래 생성물이 좋지 않아도 개선 가능함
- 모델이 빨라지면, LLM 이벤트에 기반하여 앱의 다음 프레임을 생성하는 진정한 생성 UI를 상상할 수 있음
- 확산 모델도 이와 유사한 작업을 더 빠르게 수행할 수 있음
4o Image Generation 소개: 가장 진보된 이미지 생성기임
- Google의 Gemini 2.5: 가장 지능적인 AI 모델임
- Gemini 2.0 소개: 가장 능력 있는 AI 모델임
- 이러한 트렌드가 사라지고 Apple이 효과적인 것을 사용하여 다른 회사들이 새로운 용어를 복사하기를 바람
왜 o1과의 벤치마크를 추가하지 않는지 궁금함
OpenAI의 GPT-4o Image Generation 라이브 스트림은 느리며, 이미지당 약 30초가 소요됨
- Sam Altman은 "느리지만 생성된 이미지가 가치 있다"고 설명함
- 확산 접근 대신, 원래 DALL-E와 유사하게 이미지 토큰을 생성하고 디코딩함
- Google의 Gemini는 몇 초 만에 이미지를 생성하고 편집할 수 있음
- 아직 API가 없으며, 느림으로 인해 경쟁사의 $0.03+/이미지보다 비용이 더 많이 들 것으로 예상됨
시도해본 결과, 딸의 생일 초대장을 한 번에 생성할 수 있었음
- 원하는 요소와 스타일을 정확히 맞춤
- 날짜, 장소 등 세부 정보를 추가하도록 요청했을 때도 잘 수행함
- 이전 모델은 절반도 못 따라왔음
과포화된 CG/만화 스타일이 아닌 것이 만족스러움
주어진 프롬프트가 4o 또는 Dall-E에 의해 처리되었는지 확인할 방법이 있는지 궁금함
- 현재 프롬프트는 여전히 후자에 의해 처리되는 것 같음
- 장기 계획은 4o로 완전히 이동하고 Dall-E를 별도의 탭으로 이동하는 것임
와인 잔 테스트에서 여전히 실패함
"Best of 8" 태그가 붙은 많은 이미지가 얼마나 선택된 것인지 궁금함
- 세 개의 무료 이미지 중 두 개는 인상적이었고 하나는 실패함
새로운 모델로 반복 편집의 예시가 있음
- 이전 모델보다 훨씬 나아졌지만 여전히 손가락이 너무 많거나 팔이 너무 많은 몸을 생성함

답변달기

OpenAI, 4o 이미지 생성 기능 공개

유용한 이미지 생성 기능

향상된 이미지 생성 능력

텍스트 렌더링 기능

대화형 이미지 생성

지시사항 정확한 반영

맥락 기반 학습

세계 지식과의 연결

포토리얼리즘과 다양한 스타일

모델의 한계점

안전성 확보 노력

C2PA 및 내부 검색 도구를 통한 투명성 확보

부적절한 이미지 차단

추론 기반의 안전성 강화

이용 가능

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견