ChatGPT Images 2.0 공개

▲

GN⁺ 7시간전 | parent | ★ favorite | on: ChatGPT Images 2.0 공개(openai.com)

Hacker News 의견들

나는 새 모델을 이렇게 시험해봤음. gpt-image-2로 "햄 라디오를 든 너구리를 찾는 Where's Waldo 스타일 이미지"를 만들었고, 코드는 여기 있음. 결과물은 이 이미지인데, 정작 너구리가 햄 라디오를 들고 있는지는 나도 확신이 안 듦. 원래 Where's Waldo류 테스트는 끝까지 찾아볼 인내심이 잘 안 생김
- 나는 최대 해상도를 쓰는 명령으로 다시 돌렸더니 훨씬 나은 결과를 얻었음. OpenAI cookbook의 권장 크기를 참고했고(링크), 결과는 여기 있음. 이번엔 raccoon도 찾았고, 이미지 한 장에 대략 40센트 든 것 같음
- 나는 그 이미지를 보고 고맙긴 한데, 사람들 얼굴이 너무 기괴해서 악몽에 나올 것 같은 느낌임
- 나는 이 프롬프트가 현재 diffusion 계열 모델에겐 정말 악랄하게 어려운 과제라고 봄. 그래서 오히려 시도 자체가 대단하게 느껴짐
- 나는 "끝까지 찾아볼 인내심이 없다"는 말을 보고, 이걸 아예 새로운 AI 벤치마크로 만들 수 있겠다고 느꼈음
- 나는 이런 종류의 작업이 AI가 구조적 디테일에서 계속 약할 수밖에 없는 영역처럼 보였음. 멀리서 보면 그럴듯하지만 가까이 보면 비명을 지르는 듯한 얼굴, 양쪽을 동시에 가리키는 표지판, 존재하지 않는 응급 텐트, 괴물처럼 보이는 개 같은 오류가 너무 많음. 홍보용 샘플도 비슷하고, 해부학이나 주기율표 같은 예시도 자세히 보면 무너짐. 결국 엄청난 RAM & GPUs와 물, 전기를 써가며 더 조악한 Where's Waldo를 만드는 건가 싶은 회의감이 듦
나는 Nano Banana Pro를 실험하면서 이미지 모델의 규칙 준수 능력을 시험하는 아주 재밌는 프롬프트를 만들었음. "처음 64개의 소수에 해당하는 National Pokédex 번호의 Pokémon을 8x8 격자로 배치하고, 번호 자릿수에 따라 8-bit, charcoal, Ukiyo-e 스타일로 그리라"는 식임. NBP 결과는 여기인데 번호, Pokémon, 스타일은 대체로 맞았고, 다만 스타일 적용이 게으르고 이미지가 표절처럼 보일 수 있다는 논란은 있음. 같은 프롬프트를 gpt-2-image high로 돌린 결과는 여기인데 더 창의적이고 원본처럼 보이는 스타일은 냈지만, 스타일 로직이 숫자 기준이 아니라 행 단위로 적용됐고, Pokémon 몇 개는 틀렸고, 폰트도 틀렸고, 아래쪽이 정사각형도 아니었음. 꽤 묘한 결과였음
- 나는 이 테스트가 정말 훌륭하다고 봤고, 동시에 gpt-2-image가 이렇게까지 형편없다는 점이 좀 웃기게 느껴졌음. 차라리 검색해서 복붙한 듯한 plagiarized 이미지가 더 낫겠다는 생각까지 듦. 최소한 "지시를 제대로 따랐는지" 확인하는 sanity check나 후처리 단계도 없어 보였고, 자릿수별 스타일 제약 위반은 쉽게 잡을 수 있었을 것 같음. 게다가 가격도 비싸서 결과물이 사실상 못 쓸 수준이면 더 아쉬움
- 나는 오히려 왜 이 프롬프트를 좋은 프롬프트라고 보는지 궁금했음
나는 gemini-3.1-flash-image-preview로 4096x4096 이미지를 만들면 2,520토큰, 이미지당 약 $0.151가 들고, gpt-image-2로 3840x2160 이미지를 만들면 13,342토큰, 약 $0.4가 든다고 정리했음. 그래서 이 모델은 Gemini보다 2배 이상 비쌈
- 나는 이 비교가 apples to oranges라고 봄. flash 버전과 풀 버전을 직접 비교하는 셈이고, 세밀한 디테일에서는 이쪽이 flash보다 체감상 5배쯤 낫다고 느낌
나는 이미지 생성 모델을 시험할 때 늘 쓰는 hard prompt가 있음. 낡은 시계공의 손, 빈티지 회중시계, 얕은 물, 굴절과 caustics, 떨어지는 물방울, 유리면에 비친 왜곡된 얼굴, 100mm macro lens 같은 조건을 한꺼번에 넣는 방식임. 결과 이미지는 Google Drive에 올렸고, 웹과 API 양쪽에서 여러 번 돌려봤지만 전반적으로 Nano Banana만큼 좋지는 않았음
- 나는 왜 이걸 좋은 프롬프트라고 생각하는지 궁금했음
- 나는 공유 이미지들을 보려 했는데 호스트 쪽에서 rate limit이 걸린 것처럼 보였고, 참고로 알려주고 싶었음
- 나는 링크들이 깨져 보임을 확인했음
나는 OpenAI의 gpt-image-1.5와 Google의 NB2가 내 비교 사이트에서 꽤 박빙이라고 봤음. 프롬프트 준수 중심 평가에서 둘 다 생성과 편집 기준 약 70% 성공률을 보였고, 시각적 완성도는 늘 Gemini 쪽이 한 수 위였음. 그래도 gpt-image-1.5는 OpenAI 쪽에서 큰 도약이었고, 예전의 이른바 "piss filter" 같은 고질적 문제를 많이 없앴음. 비교 차트는 편집 여기와 생성 여기에서 볼 수 있음. 업데이트 기준으로 gpt-image-2는 테스트 세트의 이른바 model killer였던 9각별을 통과했고, 텍스트-투-이미지 벤치마크에서 15개 중 12개를 맞춰 기존 최고 모델을 1점 차로 앞섰음. 다만 색 순서가 엄격한 coral snake, 처음 20개 소수를 면에 적은 D20, 가장자리로 사람이 넘쳐나는 평평한 지구형 행성 프롬프트는 여전히 실패했음. 전체 비교는 All Models, 주요 모델만 보면 여기 있음
나는 가격 비교를 정리해봤음. GPT Image 2는 Low 기준 1024x1024가 $0.006, 1024x1536과 1536x1024가 $0.005이고, Medium은 각각 $0.053, $0.041, $0.041, High는 $0.211, $0.165, $0.165였음. 반면 GPT Image 1은 Low가 $0.011, $0.016, $0.016, Medium이 $0.042, $0.063, $0.063, High가 $0.167, $0.25, $0.25였음
- 나는 해상도 제한이 이렇게 큰 점이 좀 이상했음. 더 크게 만들면 확대 시 디테일이 무너지는 건지, 아니면 단순히 비용이 급격히 치솟는 건지 궁금했음
- 나는 v2에서는 큰 출력이 작은 정사각형보다 더 비싸고, v1에서는 오히려 반대라는 점이 흥미로웠음. 왜 이런 가격 구조가 나왔는지 궁금했음
나는 이번에는 피아노 건반 테스트를 통과한 걸 확인했음. 성공 사례는 여기 있고, 다만 middle C 라벨링은 이 시도에서 틀렸음. 그래도 다시 요청하니 수정해냈음
- 나는 NB 2가 나왔을 때 이 테스트 난도를 더 올렸음. 모든 accidentals와 naturals의 색을 뒤집는 식으로 바꿨는데도 완벽하게 맞췄고, 예시는 여기 있음
나는 중국어 텍스트 렌더링 향상이 정말 눈에 띄고 인상적이라고 느낌. 그래도 Wuxi 샘플 이미지에는 오타가 남아 있었고, 예를 들어 小笼包의 笼이 잘못 쓰였음. "极小中文也清晰可读" 섹션에도 오타가 더 있었지만 읽는 데는 큰 문제는 없었음. 그럼에도 이전 이미지 생성 모델들보다 큰 차이로 좋아졌다는 점은 분명하게 느껴짐
- 나는 이게 중국 현지 중국계 모델보다도 나은지 궁금했음. 학습 데이터에 중국어 예시가 훨씬 많을 테니, 보통은 그쪽이 이 부분에 더 집중했을 것 같다는 생각임
나는 지금이 C2PA를 언급하기 좋은 시점이라고 봄. 이건 이미지 출처를 적극적으로 증명하는 규격이고, OpenAI도 참여 중임. 내가 AI로 만든 이미지를 C2PA Viewer에 넣어보면 출처가 ChatGPT로 표시됨. 물론 악의적인 사용자는 메타데이터를 지워서 일반 이미지처럼 만들 수 있지만, 장기적으로는 출처 표시가 없는 이미지를 non-https처럼 위험 신호로 다뤄야 한다고 생각함. 자세한 내용은 c2pa.org 참고 가능함
- 나는 문제를 단순히 bad actors만의 행동으로 보기 어렵다고 느낌. Instagram, Facebook 같은 대부분의 플랫폼이 개인정보 보호 때문에 메타데이터를 기본적으로 제거하고, EXIF에는 위치 정보나 파일명, 생성 시간, 기기 정보 같은 내용이 들어 있을 수 있음. 그래서 지금은 악의적 조작보다도, 대다수 사이트가 이미지 업로드 시 메타데이터 제거를 해버리는 구조 자체가 C2PA 보존의 더 큰 현실적 문제처럼 보임
- 나는 OpenAI가 처음부터 생성 이미지에 C2PA manifests를 붙여왔다는 점을 덧붙이고 싶었음. 또 내가 해본 작은 평가 기준으로는 OmniAID 같은 최신 ML 기반 AI 이미지 감지기가 GPT-Image-2 생성 이미지를 꽤 잘 잡아냈음. 관련 논문은 여기이고, 나는 이 둘을 조합해 온디바이스 AI 이미지 감지기를 직접 만들었음
나는 이 모델을 몇 시간 써봤는데, 솔직히 꽤 인상적이었음. 이미지 모델에서 실제 내 업무에 도움이 된다고 느낀 건 이번이 처음이었고, 특히 PowerPoint 슬라이드와 mockup 제작에 정말 강력하게 느껴졌음