GPT Images 1.5 공개
(openai.com)- ChatGPT의 이미지 생성 기능이 새롭게 업그레이드되어, 더 정밀한 편집과 빠른 생성 속도를 제공
- GPT‑Image‑1.5 모델은 텍스트 지시를 더 정확히 따르며, 인물의 유사도와 조명·구도를 유지한 채 수정 가능
- 새로운 Images 사이드바 인터페이스를 통해 프리셋 스타일, 트렌딩 프롬프트, 외모 재사용 기능을 지원
- API에서도 동일한 성능 향상과 함께 비용이 20% 절감, 브랜드 로고·제품 이미지 생성에 적합
- 이번 업데이트는 모든 ChatGPT 및 API 사용자에게 즉시 배포되며, 이미지 생성의 실용성과 품질을 크게 향상
GPT‑Image‑1.5 소개
-
가장 강력한 이미지 생성 모델을 기반으로 한 ChatGPT Images의 새 버전 공개
- 텍스트 지시를 더 정확히 따르고, 얼굴 유사도 등 세부 요소를 유지하면서 수정 가능
- 이미지 생성 속도가 최대 4배 빨라짐, 반복 실험과 아이디어 탐색 효율 향상
- 모델은 표현력 있는 변환, 조밀한 텍스트 렌더링, 자연스러운 결과물을 제공
- 작은 수정부터 완전한 재구성까지 대응하며, 프리셋 스타일을 선택해 간편히 생성 가능
- ChatGPT 전 사용자에게 순차 배포 중이며, API에서는 GPT‑Image‑1.5로 제공
사용자의 의도에 맞는 결과
- 모델은 요청한 부분만 수정하면서 조명·구도·인물 유사도를 일관되게 유지
- 이를 통해 사진 편집, 의상·헤어스타일 시뮬레이션, 스타일 필터, 개념 변환 등에서 높은 일치도 확보
- ChatGPT가 휴대용 크리에이티브 스튜디오처럼 실용적 편집과 예술적 재구성을 모두 수행
- 다양한 편집 유형(추가, 삭제, 결합, 혼합 등)을 지원
- 텍스트·레이아웃 등 요소를 추가하는 창의적 변환 기능 강화
- GPT Image 1.0 대비 지시문 이해력 향상, 세밀한 편집 가능
- 조밀하고 작은 텍스트 렌더링 품질 개선
새로운 이미지 생성 공간
- ChatGPT 내 Images 전용 사이드바를 도입해 이미지 탐색과 생성 과정을 단축
- 프리셋 필터, 트렌딩 프롬프트, 외모 재사용 기능 포함
- 카메라 롤을 다시 사용할 필요 없이 한 번의 업로드로 반복 활용 가능
- 이미지 생성 속도는 최대 4배 향상, 여러 이미지를 동시에 생성 가능
- 작은 수정부터 완전한 재구성까지 사용자 비전과 일치하는 결과물 제공
추가 품질 개선
- 작은 얼굴 다수 표현, 자연스러운 결과물 렌더링 등 즉시 활용 가능한 품질 향상
- 예시: 1970년대 런던 거리 장면을 사실적으로 재현하며, 세부 초점과 인물 표현이 향상됨
개선점과 한계
- 초기 버전 대비 다양한 사례에서 명확한 성능 향상 확인
- 다만 일부 결과는 여전히 불완전하며, 다중 얼굴·다국어 처리 등은 개선 여지 존재
GPT Image 1.5의 API 제공
- API 버전은 ChatGPT Images와 동일한 개선 사항을 포함
- 브랜드 로고, 핵심 비주얼의 일관성 유지
- 마케팅·전자상거래용 이미지 생성에 적합
- 입출력 비용이 20% 절감, 동일 예산으로 더 많은 이미지 생성 가능
- OpenAI Playground, 갤러리, 프롬프트 가이드에서 체험 가능
-
Wix, Canva, Figma, Envato 등 기업이 이미 활용 중
- Wix는 “고품질·고일관성 이미지 생성으로 빠른 제작 워크플로우 지원”이라고 평가
출시 및 배포
- 새로운 ChatGPT Images 모델은 전 세계 모든 ChatGPT 및 API 사용자에게 즉시 배포
- 별도 모델 선택 없이 사용 가능하며, 이전 버전은 커스텀 GPT 형태로 유지
- OpenAI는 이번 업데이트를 이미지 생성 기술 발전의 중요한 단계로 평가
- 향후 더 세밀한 편집과 다국어 지원 등 추가 개선 예정
Hacker News 의견들
-
GenAI Showdown 사이트의 gpt-image 1.5 결과를 공유함
OpenAI는 여전히 프롬프트 이해력이 강하지만 이미지 충실도(fidelity) 가 약한 편이었음. 이번 업데이트로 그 약점이 꽤 개선됨
특히 전체 미학을 해치지 않고 국소적 편집(localized edit) 을 잘 수행함. 이전 점수 4/12에서 8/12로 두 배 향상되었고, 유일하게 ‘Giraffe prompt’를 통과한 모델임
모델의 조종 가능성(steerability) 도 90% 수준으로 높음
새로 추가된 기능으로는 모델별 실패 사례(outtakes) 섹션, REVE 및 Flux.2 Dev 모델 추가, 그리고 가중치 기반 점수 시스템이 있음
세 모델(gpt-image-1, gpt-image-1.5, NB Pro)을 비교하려면 이 링크 참고 -
Nano Banana 관련 실험을 정리한 블로그 글을 준비 중임
새 ChatGPT Image 모델을 테스트해보니, Nano Banana Pro보다 훨씬 못하지만 기본 Nano Banana보다는 나았음
가격은 불분명하지만 gpt-image-1.5가 기존 모델보다 약 20% 저렴해 보임
흥미로운 점은 그리드 생성(grid generation) 사례임. NBP는 4x4 이상에서 프롬프트 일관성이 무너지는데, OpenAI는 6x6 사례를 시도한 것이 인상적임- 오늘 중으로 gpt-image-1.5를 내 GenAI Showdown에 돌려볼 예정임
그동안 NB Pro의 인상적인 결과물은 이 블로그에서 볼 수 있음
NB Pro는 처음 보는 직소 퍼즐을 조립하거나, 3D 지형을 추정하고, 창문을 거울로 바꾸는 등 놀라운 결과를 냈음 - GPT1.5를 직접 테스트해보니 이미지 품질은 NBP와 비슷했지만 프롬프트 일관성과 세계 모델 이해력은 떨어졌음
예를 들어 노 젓는 두 사람을 요청했더니, 배가 너무 작아 거의 들어가지 못할 정도였음
또 수정 프롬프트를 줄 때마다 이전 대화가 사라지는 버그가 매우 불편했음
자연스러운 결과를 위해 “shaky amateur smartphone photo” 같은 문구를 프롬프트 앞에 추가했음
참고로 관련 반응은 이 트윗에서도 볼 수 있음 - 10년 넘게 영화 제작을 해온 입장에서, 일관된 장면 구성 도구가 절실함
gpt-image-1은 Nano Banana(Pro)보다 previz-to-render 기능이 훨씬 뛰어남
Nano Banana는 저해상도 프리비즈 요소를 그대로 유지하지만, gpt-image-1은 인물 포즈와 씬 블로킹을 이해하고 업스케일까지 수행함
예시 영상: 3D + Posing + Blocking, 세트 재활용 버전, Gaussian splats, 추가 예시
앞으로는 스타일 제어력과 속도, 참조 이미지 기반 스타일링이 가능한 모델이 필요함
Adobe도 비슷한 기능을 실험 중이며, Relighting, Image→3D 편집, Gaussian 편집, 3D→Image 변환 등을 시연함
나는 이 기능들을 오픈소스 데스크톱 도구로 직접 구현 중이며 Rust로 개발 중임 - 실험을 흥미롭게 봤다는 피드백을 받음. 덕분에 프롬프트 작성법이 개선되었고 기대치도 현실적으로 조정됨
- 오늘 중으로 gpt-image-1.5를 내 GenAI Showdown에 돌려볼 예정임
-
2010년에 포토샵 인력들이 이미지를 조합해주는 서비스였다면 큰 논란이 되었을 것 같음
지금은 AI가 저작권과 저자 개념을 무너뜨린 시대인데, 새 콘텐츠를 어떻게 보호할 수 있을지 궁금함
예전에 내가 찍은 희귀한 스타일의 사진을 gpt가 거의 그대로 재현한 적이 있었음- 참고 이미지 사용은 디지털 아트 업계의 표준 관행임. 다만 AI는 너무 유사하게 복제될 위험이 있음
- 콘텐츠를 보호하려면 에어갭(air gap) 이 유일한 방법임. 즉, 인터넷에 올리지 않는 것
공개하는 순간 일정 수준의 오용은 감수해야 함. 모델이 원본에 과적합되는 경우는 아직 법적 선례가 없음 - 우리는 아마 포스트 저작권 시대로 진입 중임. 법이 곧 따라올 것임
- 누군가 내 작품을 복제해도, 그로 인해 수많은 사람이 본다면 그게 꼭 나쁜 일일까 하는 질문을 던짐
-
gpt-image-1.5로 스프라이트 맵과 UV 텍스처 맵을 생성해봤는데, Megaman Legends 느낌이 잘 살아 있었음
예시1, 예시2
다만 실제 3D 모델이 없어 정확한 UV 맵인지는 확신이 없음. Nano Banana 초기 버전은 이런 작업이 불가능했음- 확실히 말하자면 이건 진짜 UV 맵이 아님. 예를 들어 Crash 모델의 등 부분이 없음
이런 텍스처를 쓸 수는 있지만 왜곡이 심할 것임
올바른 접근은 모델을 언랩하고 와이어프레임 UV 맵을 입력으로 사용하는 것임
실제 Crash 모델은 여기에서 볼 수 있음
- 확실히 말하자면 이건 진짜 UV 맵이 아님. 예를 들어 Crash 모델의 등 부분이 없음
-
소프트웨어 제품의 다크 테마 적용 실험을 함
Gemini/Nano는 일부 패널만 회색으로 바꾸는 수준이었지만, GPT는 전체 앱을 멋지게 테마화했음
그래도 세부 디자인은 여전히 디자이너의 손길이 필요함 -
ChatGPT 이미지에 항상 있던 노란색 기운의 이유가 궁금했음
- 특정 시점부터 생긴 현상임. Ghibli 스타일 붐과 관련된 강화학습의 영향으로 보임
- 내 추측으로는 OpenAI가 이미지 정규화 계산을 잘못했을 가능성이 있음. 이번 새 모델에서는 사라짐
- Meta의 Codec Avatars도 비슷한 문제를 겪었음. 수백만 달러짜리 장비로 데이터를 모았지만 카메라 보정 실패로 초록빛이 돌았음
- 또 다른 가설은 영화에서 흔히 쓰이는 ‘Mexico 필터’ 가 학습 데이터에 스며든 결과라는 것임
- 인간 선호도 기반으로 스타일 튜닝을 하면서 미묘한 노란색 편향이 생겼고, 편집을 반복할수록 그 편향이 누적된 것임
-
“존재하지 않는 기억으로 이미지를 만든다”는 제품 피치가 이상하게 느껴짐
- 나도 그렇게 느끼지만, 시장 조사를 해보면 이미지 생성은 매우 인기 있음
나는 주로 프로그래밍, 위키, 수학 등 텍스트 중심 작업에만 사용함
이 현상은 예전에 Snapchat 필터가 유행하던 때와 비슷함. 나는 기본 모드로 두는 편이었음 - 그 프롬프트로 종이접기 동물을 만들어낸다면 오히려 더 섬뜩할 것 같음
- 언젠가 배우들이 자신의 이미지를 팔아 가짜 사진을 만드는 시대가 올 수도 있음
결국 모두가 가상의 삶을 구독하게 되고, 카드 결제가 실패하면 현실로 돌아오게 되는 세상이 될지도 모름
- 나도 그렇게 느끼지만, 시장 조사를 해보면 이미지 생성은 매우 인기 있음
-
새 모델이 API에서 작동한다고 해서 Golang SDK grail을 업데이트했는데,
호출 시 500 서버 오류가 발생함. 모델 목록에도 gpt-image-1.5는 없음
코드 예시 참고- 실제로 아직 API에서 사용 불가임. OpenAI가 링크한 Image Playground에서도 보이지 않음
내 로컬 플레이그라운드(gpt-image-1-playground)에서는 404를 처리하도록 수정함- 나도 시도해봤는데 동일하게 500 오류가 발생함.
모델명을 잘못 넣으면 ‘지원되는 값은 gpt-image-1, gpt-image-1-mini뿐’이라는 메시지가 뜸 - 점진적 롤아웃 중인 듯하며, 백엔드에서도 아직 확인되지 않음
- 나도 시도해봤는데 동일하게 500 오류가 발생함.
- 실제로 아직 API에서 사용 불가임. OpenAI가 링크한 Image Playground에서도 보이지 않음
-
여전히 Midjourney를 사용 중임. 다른 메이저 모델들은 스타일적 창의성이 부족하고 포토리얼리즘에만 집중함
- Midjourney의 최근 업데이트를 잘 모르지만, 스타일 일관성과 캐릭터 유지 기능이 중요함
단일 이미지가 아니라 맥락 있는 시퀀스를 만들려면 이런 기능이 필수임 - 이 현상은 ‘의견형 모델 vs 사용자 선택형 모델’ 의 차이로 볼 수 있음. 전자가 잘 작동하면 강점을 가짐
- 놀랍다는 반응도 있었고, 관련 이미지를 모은 갤러리가 있는지 궁금해하는 사람도 있었음
- 이런 경향은 이미지 생성 이전부터 존재한 문화적 문제임.
예술의 가치를 ‘렌더링 기술력’으로만 판단하는 경향이 있었고, 이는 사회적 맥락 속 문화 창작의 의미를 간과하는 태도임
- Midjourney의 최근 업데이트를 잘 모르지만, 스타일 일관성과 캐릭터 유지 기능이 중요함