4P by GN⁺ 5시간전 | ★ favorite | 댓글 4개
  • OpenAI가 이미지 생성 모델의 차세대 버전을 공개, 소개글 자체에 문자로 적지 않고 Images 2.0 이용해서 생성한 이미지에 넣은 텍스트로만 소개함
  • 복잡한 시각적 작업과 정밀한 텍스트 렌더링을 포함한 즉시 사용 가능한 결과물 생성에 초점을 맞춤
  • 최초의 사고(thinking) 기능을 갖춘 이미지 모델로, 웹 검색과 다중 이미지 동시 생성, 출력물 자체 검증이 가능
  • 일본어, 한국어, 중국어, 힌디어, 벵골어 등 비라틴 문자 렌더링 성능이 크게 향상되어 다국어 디자인 제작에 실용적
  • 3:1에서 1:3까지 유연한 종횡비 지원으로 배너, 포스터, 모바일 화면 등 다양한 포맷에 즉시 대응
  • 렌더링 도구에서 전략적 디자인 시스템으로의 전환을 표방하며, ChatGPT·Codex·API 전체에서 사용 가능

새로운 이미지 생성의 시대

  • 이미지를 단순 장식이 아닌 하나의 언어로 정의하며, 메커니즘 설명, 분위기 연출, 아이디어 검증, 주장 전달 등의 역할 수행
  • 1년 전 출시한 ChatGPT Images가 AI 이미지가 아름답고 유용할 수 있음을 입증한 데 이어, Images 2.0은 복잡한 시각 작업을 정밀하게 처리하는 차세대 모델
  • 세부 지시사항 충실 반영, 객체의 정확한 배치와 관계 표현, 밀집 텍스트 렌더링에서 비약적 향상
  • 구도와 시각적 감각이 뛰어나 결과물이 AI 생성이 아닌 의도적 디자인처럼 느껴지는 수준
  • 다양한 언어에서 정확하게 작동하며, 확장된 시각적·세계 지식을 활용해 적은 프롬프트로도 더 스마트한 이미지 생성 가능
  • 이 모델은 OpenAI의 추론 모델 지능과 시각 세계 이해를 결합하여, 이미지 생성을 단순 렌더링에서 전략적 디자인으로, 도구에서 비주얼 시스템으로 전환
  • 오늘부터 ChatGPT, Codex, API 전체 사용자에게 제공

더 높은 정밀도와 제어력

  • Images 2.0은 이미지 생성에서 전례 없는 구체성과 충실도 제공
  • 더 정교한 이미지를 구상할 뿐 아니라 이를 효과적으로 구현하며, 지시사항 준수·요청 세부사항 보존·미세 요소 렌더링에 강점
  • 기존 이미지 모델이 잘 처리하지 못하던 작은 텍스트, 아이콘, UI 요소, 밀집 구성, 미묘한 스타일 제약을 최대 2K 해상도에서 처리
  • "대략 비슷한 이미지"가 아닌 실제로 바로 사용 가능한 결과물 생성

다국어 텍스트 지원 강화

  • 기존 모델은 영어 및 라틴 문자 언어에서 일관된 성능을 보였으나, 복잡하거나 밀집된 텍스트에서 비라틴 문자 처리가 부족했음
  • Images 2.0은 다국어 이해력 향상과 함께 특히 일본어, 한국어, 중국어, 힌디어, 벵골어의 비라틴 텍스트 렌더링에서 큰 개선
  • 비영어 텍스트가 정확히 렌더링될 뿐 아니라 언어적으로 자연스럽게 흐르는 결과물 생성 가능
  • 단순 라벨 번역을 넘어 언어가 디자인의 일부인 포스터, 설명 자료, 다이어그램, 만화 등에서 시각적 일관성 유지
  • 사용자가 실제로 사용하는 언어로 비주얼을 만들 수 있어 글로벌 활용도 향상

스타일 정교함과 사실감

  • Images 2.0은 다양한 시각 스타일에 걸친 충실도가 크게 향상
  • 사진의 특징적 요소(사실감을 더하는 미세한 결함 포함), 영화 스틸, 픽셀 아트, 만화 등 독특한 시각 언어의 질감·조명·구도·세부 사항에서 일관성 개선
  • 요청된 스타일을 근사하는 수준이 아닌 충실하게 반영하는 결과물 생성
  • 게임 프로토타이핑, 스토리보드, 마케팅 크리에이티브, 특정 매체나 장르의 에셋 제작에 특히 유용

유연한 종횡비 지원

  • 3:1(가로)에서 1:3(세로)까지 폭넓은 종횡비 지원
  • 와이드 배너, 프레젠테이션 슬라이드, 포스터, 모바일 화면, 북마크, 소셜 그래픽 등 필요한 포맷에 맞는 결과물 즉시 생성
  • 프롬프트에서 원하는 종횡비를 지정하거나, 프리셋 옵션에서 선택하여 새 크기로 재생성 가능

실세계 지능

  • Images 2.0은 이미지 생성에 더 최신의 세계 이해를 반영하며, 지식 컷오프가 2025년 12월로 업데이트
  • 설명 자료, 지도, 교육 그래픽, 시각적 요약 등 정확성과 명확성이 미적 요소만큼 중요한 결과물에 유리
  • 향상된 지능으로 정보 종합부터 카피 작성, 시각화까지 엔드투엔드 작업 수행 가능
    • 여백 배치, 가독성, 흐름을 고려한 깔끔하고 체계적인 디자인 감각 보유

시각적 사고 파트너

  • thinking 또는 pro 모델 선택 시, 모델이 더 많은 시간을 투자해 에이전틱하게 작업을 이해하고 실행
  • 웹에서 관련 정보를 검색하고, 업로드 자료를 명확한 시각적 설명 자료로 변환하며, 생성 전에 이미지 구조를 추론
  • 이 모드에서 Images 2.0은 비주얼 사고 파트너로 기능하며, 초안 개념에서 완성 에셋까지 사용자의 작업량을 크게 줄여줌
  • thinking 모드에서 한 번에 여러 개의 서로 다른 이미지 동시 생성 가능 — ChatGPT 이미지 생성 최초 기능
    • 일련의 만화 페이지, 집 전체 리디자인 방향, 포스터 콘셉트 패밀리, 다양한 종횡비·언어의 소셜 그래픽 세트 등의 워크플로우 지원
  • 이미지를 하나씩 프롬프트하고 직접 조합하는 대신, 캐릭터·객체 연속성을 유지하는 최대 10개의 일관된 결과물을 한 번에 요청 가능
    • 각 결과물이 순차적으로 이전 결과를 기반으로 구축

이미지에 추론이 들어가있어 결과가 미쳤습니다.

단순 신사업에 관련된 키워드만 던졌는데
핵심 메시지/페인포인트까지 추론해서 랜딩페이지에 녹여내네요.

기존 참고하라고 했던 사이트의 브랜드 색상, 브랜드 메시지톤, 모델까지 그대로 가져오는건 기본이구요.
한글도 전혀 안깨진걸 보면 앞으로 활용도가 어마어마하겠어요..

이제 좀 AI의 발전이 점점 더 무서워지고 있습니다.

엄청나네요. 나노바나나 나왔을 때도 놀랐는데 더 좋아졌네요. 경쟁을 하니까 발전이 빠른 것 같습니다.

오.. 글자 처리는 나노바나나 였는데, 이번엔 칼을 갈았나 보네요.
소개글의 내용 모든 텍스트를 이미지로 만들었습니다.
글 전체가 다 이미지를 스크롤하며 볼 수 있어요.
중간에 필기체가 인상적이네요

Hacker News 의견들
  • 나는 새 모델을 이렇게 시험해봤음. gpt-image-2로 "햄 라디오를 든 너구리를 찾는 Where's Waldo 스타일 이미지"를 만들었고, 코드는 여기 있음. 결과물은 이 이미지인데, 정작 너구리가 햄 라디오를 들고 있는지는 나도 확신이 안 듦. 원래 Where's Waldo류 테스트는 끝까지 찾아볼 인내심이 잘 안 생김
    • 나는 최대 해상도를 쓰는 명령으로 다시 돌렸더니 훨씬 나은 결과를 얻었음. OpenAI cookbook의 권장 크기를 참고했고(링크), 결과는 여기 있음. 이번엔 raccoon도 찾았고, 이미지 한 장에 대략 40센트 든 것 같음
    • 나는 그 이미지를 보고 고맙긴 한데, 사람들 얼굴이 너무 기괴해서 악몽에 나올 것 같은 느낌임
    • 나는 이 프롬프트가 현재 diffusion 계열 모델에겐 정말 악랄하게 어려운 과제라고 봄. 그래서 오히려 시도 자체가 대단하게 느껴짐
    • 나는 "끝까지 찾아볼 인내심이 없다"는 말을 보고, 이걸 아예 새로운 AI 벤치마크로 만들 수 있겠다고 느꼈음
    • 나는 이런 종류의 작업이 AI가 구조적 디테일에서 계속 약할 수밖에 없는 영역처럼 보였음. 멀리서 보면 그럴듯하지만 가까이 보면 비명을 지르는 듯한 얼굴, 양쪽을 동시에 가리키는 표지판, 존재하지 않는 응급 텐트, 괴물처럼 보이는 개 같은 오류가 너무 많음. 홍보용 샘플도 비슷하고, 해부학이나 주기율표 같은 예시도 자세히 보면 무너짐. 결국 엄청난 RAM & GPUs와 물, 전기를 써가며 더 조악한 Where's Waldo를 만드는 건가 싶은 회의감이 듦
  • 나는 Nano Banana Pro를 실험하면서 이미지 모델의 규칙 준수 능력을 시험하는 아주 재밌는 프롬프트를 만들었음. "처음 64개의 소수에 해당하는 National Pokédex 번호의 Pokémon을 8x8 격자로 배치하고, 번호 자릿수에 따라 8-bit, charcoal, Ukiyo-e 스타일로 그리라"는 식임. NBP 결과는 여기인데 번호, Pokémon, 스타일은 대체로 맞았고, 다만 스타일 적용이 게으르고 이미지가 표절처럼 보일 수 있다는 논란은 있음. 같은 프롬프트를 gpt-2-image high로 돌린 결과는 여기인데 더 창의적이고 원본처럼 보이는 스타일은 냈지만, 스타일 로직이 숫자 기준이 아니라 행 단위로 적용됐고, Pokémon 몇 개는 틀렸고, 폰트도 틀렸고, 아래쪽이 정사각형도 아니었음. 꽤 묘한 결과였음
    • 나는 이 테스트가 정말 훌륭하다고 봤고, 동시에 gpt-2-image가 이렇게까지 형편없다는 점이 좀 웃기게 느껴졌음. 차라리 검색해서 복붙한 듯한 plagiarized 이미지가 더 낫겠다는 생각까지 듦. 최소한 "지시를 제대로 따랐는지" 확인하는 sanity check나 후처리 단계도 없어 보였고, 자릿수별 스타일 제약 위반은 쉽게 잡을 수 있었을 것 같음. 게다가 가격도 비싸서 결과물이 사실상 못 쓸 수준이면 더 아쉬움
    • 나는 오히려 왜 이 프롬프트를 좋은 프롬프트라고 보는지 궁금했음
  • 나는 gemini-3.1-flash-image-preview로 4096x4096 이미지를 만들면 2,520토큰, 이미지당 약 $0.151가 들고, gpt-image-2로 3840x2160 이미지를 만들면 13,342토큰, 약 $0.4가 든다고 정리했음. 그래서 이 모델은 Gemini보다 2배 이상 비쌈
    • 나는 이 비교가 apples to oranges라고 봄. flash 버전과 풀 버전을 직접 비교하는 셈이고, 세밀한 디테일에서는 이쪽이 flash보다 체감상 5배쯤 낫다고 느낌
  • 나는 이미지 생성 모델을 시험할 때 늘 쓰는 hard prompt가 있음. 낡은 시계공의 손, 빈티지 회중시계, 얕은 물, 굴절과 caustics, 떨어지는 물방울, 유리면에 비친 왜곡된 얼굴, 100mm macro lens 같은 조건을 한꺼번에 넣는 방식임. 결과 이미지는 Google Drive에 올렸고, 웹과 API 양쪽에서 여러 번 돌려봤지만 전반적으로 Nano Banana만큼 좋지는 않았음
    • 나는 왜 이걸 좋은 프롬프트라고 생각하는지 궁금했음
    • 나는 공유 이미지들을 보려 했는데 호스트 쪽에서 rate limit이 걸린 것처럼 보였고, 참고로 알려주고 싶었음
    • 나는 링크들이 깨져 보임을 확인했음
  • 나는 OpenAI의 gpt-image-1.5와 Google의 NB2가 내 비교 사이트에서 꽤 박빙이라고 봤음. 프롬프트 준수 중심 평가에서 둘 다 생성과 편집 기준 약 70% 성공률을 보였고, 시각적 완성도는 늘 Gemini 쪽이 한 수 위였음. 그래도 gpt-image-1.5는 OpenAI 쪽에서 큰 도약이었고, 예전의 이른바 "piss filter" 같은 고질적 문제를 많이 없앴음. 비교 차트는 편집 여기와 생성 여기에서 볼 수 있음. 업데이트 기준으로 gpt-image-2는 테스트 세트의 이른바 model killer였던 9각별을 통과했고, 텍스트-투-이미지 벤치마크에서 15개 중 12개를 맞춰 기존 최고 모델을 1점 차로 앞섰음. 다만 색 순서가 엄격한 coral snake, 처음 20개 소수를 면에 적은 D20, 가장자리로 사람이 넘쳐나는 평평한 지구형 행성 프롬프트는 여전히 실패했음. 전체 비교는 All Models, 주요 모델만 보면 여기 있음
  • 나는 가격 비교를 정리해봤음. GPT Image 2는 Low 기준 1024x1024가 $0.006, 1024x1536과 1536x1024가 $0.005이고, Medium은 각각 $0.053, $0.041, $0.041, High는 $0.211, $0.165, $0.165였음. 반면 GPT Image 1은 Low가 $0.011, $0.016, $0.016, Medium이 $0.042, $0.063, $0.063, High가 $0.167, $0.25, $0.25였음
    • 나는 해상도 제한이 이렇게 큰 점이 좀 이상했음. 더 크게 만들면 확대 시 디테일이 무너지는 건지, 아니면 단순히 비용이 급격히 치솟는 건지 궁금했음
    • 나는 v2에서는 큰 출력이 작은 정사각형보다 더 비싸고, v1에서는 오히려 반대라는 점이 흥미로웠음. 왜 이런 가격 구조가 나왔는지 궁금했음
  • 나는 이번에는 피아노 건반 테스트를 통과한 걸 확인했음. 성공 사례는 여기 있고, 다만 middle C 라벨링은 이 시도에서 틀렸음. 그래도 다시 요청하니 수정해냈음
    • 나는 NB 2가 나왔을 때 이 테스트 난도를 더 올렸음. 모든 accidentals와 naturals의 색을 뒤집는 식으로 바꿨는데도 완벽하게 맞췄고, 예시는 여기 있음
  • 나는 중국어 텍스트 렌더링 향상이 정말 눈에 띄고 인상적이라고 느낌. 그래도 Wuxi 샘플 이미지에는 오타가 남아 있었고, 예를 들어 小笼包의 笼이 잘못 쓰였음. "极小中文也清晰可读" 섹션에도 오타가 더 있었지만 읽는 데는 큰 문제는 없었음. 그럼에도 이전 이미지 생성 모델들보다 큰 차이로 좋아졌다는 점은 분명하게 느껴짐
    • 나는 이게 중국 현지 중국계 모델보다도 나은지 궁금했음. 학습 데이터에 중국어 예시가 훨씬 많을 테니, 보통은 그쪽이 이 부분에 더 집중했을 것 같다는 생각임
  • 나는 지금이 C2PA를 언급하기 좋은 시점이라고 봄. 이건 이미지 출처를 적극적으로 증명하는 규격이고, OpenAI도 참여 중임. 내가 AI로 만든 이미지를 C2PA Viewer에 넣어보면 출처가 ChatGPT로 표시됨. 물론 악의적인 사용자는 메타데이터를 지워서 일반 이미지처럼 만들 수 있지만, 장기적으로는 출처 표시가 없는 이미지를 non-https처럼 위험 신호로 다뤄야 한다고 생각함. 자세한 내용은 c2pa.org 참고 가능함
    • 나는 문제를 단순히 bad actors만의 행동으로 보기 어렵다고 느낌. Instagram, Facebook 같은 대부분의 플랫폼이 개인정보 보호 때문에 메타데이터를 기본적으로 제거하고, EXIF에는 위치 정보나 파일명, 생성 시간, 기기 정보 같은 내용이 들어 있을 수 있음. 그래서 지금은 악의적 조작보다도, 대다수 사이트가 이미지 업로드 시 메타데이터 제거를 해버리는 구조 자체가 C2PA 보존의 더 큰 현실적 문제처럼 보임
    • 나는 OpenAI가 처음부터 생성 이미지에 C2PA manifests를 붙여왔다는 점을 덧붙이고 싶었음. 또 내가 해본 작은 평가 기준으로는 OmniAID 같은 최신 ML 기반 AI 이미지 감지기가 GPT-Image-2 생성 이미지를 꽤 잘 잡아냈음. 관련 논문은 여기이고, 나는 이 둘을 조합해 온디바이스 AI 이미지 감지기를 직접 만들었음
  • 나는 이 모델을 몇 시간 써봤는데, 솔직히 꽤 인상적이었음. 이미지 모델에서 실제 내 업무에 도움이 된다고 느낀 건 이번이 처음이었고, 특히 PowerPoint 슬라이드와 mockup 제작에 정말 강력하게 느껴졌음