GPT Images 1.5 공개

▲

GN⁺ 5달전 | parent | ★ favorite | on: GPT Images 1.5 공개 (openai.com)

Hacker News 의견들

GenAI Showdown 사이트의 gpt-image 1.5 결과를 공유함
OpenAI는 여전히 프롬프트 이해력이 강하지만 이미지 충실도(fidelity) 가 약한 편이었음. 이번 업데이트로 그 약점이 꽤 개선됨
특히 전체 미학을 해치지 않고 국소적 편집(localized edit) 을 잘 수행함. 이전 점수 4/12에서 8/12로 두 배 향상되었고, 유일하게 ‘Giraffe prompt’를 통과한 모델임
모델의 조종 가능성(steerability) 도 90% 수준으로 높음
새로 추가된 기능으로는 모델별 실패 사례(outtakes) 섹션, REVE 및 Flux.2 Dev 모델 추가, 그리고 가중치 기반 점수 시스템이 있음
세 모델(gpt-image-1, gpt-image-1.5, NB Pro)을 비교하려면 이 링크 참고
Nano Banana 관련 실험을 정리한 블로그 글을 준비 중임
새 ChatGPT Image 모델을 테스트해보니, Nano Banana Pro보다 훨씬 못하지만 기본 Nano Banana보다는 나았음
가격은 불분명하지만 gpt-image-1.5가 기존 모델보다 약 20% 저렴해 보임
흥미로운 점은 그리드 생성(grid generation) 사례임. NBP는 4x4 이상에서 프롬프트 일관성이 무너지는데, OpenAI는 6x6 사례를 시도한 것이 인상적임
- 오늘 중으로 gpt-image-1.5를 내 GenAI Showdown에 돌려볼 예정임
  그동안 NB Pro의 인상적인 결과물은 이 블로그에서 볼 수 있음
  NB Pro는 처음 보는 직소 퍼즐을 조립하거나, 3D 지형을 추정하고, 창문을 거울로 바꾸는 등 놀라운 결과를 냈음
- GPT1.5를 직접 테스트해보니 이미지 품질은 NBP와 비슷했지만 프롬프트 일관성과 세계 모델 이해력은 떨어졌음
  예를 들어 노 젓는 두 사람을 요청했더니, 배가 너무 작아 거의 들어가지 못할 정도였음
  또 수정 프롬프트를 줄 때마다 이전 대화가 사라지는 버그가 매우 불편했음
  자연스러운 결과를 위해 “shaky amateur smartphone photo” 같은 문구를 프롬프트 앞에 추가했음
  참고로 관련 반응은 이 트윗에서도 볼 수 있음
- 10년 넘게 영화 제작을 해온 입장에서, 일관된 장면 구성 도구가 절실함
  gpt-image-1은 Nano Banana(Pro)보다 previz-to-render 기능이 훨씬 뛰어남
  Nano Banana는 저해상도 프리비즈 요소를 그대로 유지하지만, gpt-image-1은 인물 포즈와 씬 블로킹을 이해하고 업스케일까지 수행함
  예시 영상: 3D + Posing + Blocking, 세트 재활용 버전, Gaussian splats, 추가 예시
  앞으로는 스타일 제어력과 속도, 참조 이미지 기반 스타일링이 가능한 모델이 필요함
  Adobe도 비슷한 기능을 실험 중이며, Relighting, Image→3D 편집, Gaussian 편집, 3D→Image 변환 등을 시연함
  나는 이 기능들을 오픈소스 데스크톱 도구로 직접 구현 중이며 Rust로 개발 중임
- 실험을 흥미롭게 봤다는 피드백을 받음. 덕분에 프롬프트 작성법이 개선되었고 기대치도 현실적으로 조정됨
2010년에 포토샵 인력들이 이미지를 조합해주는 서비스였다면 큰 논란이 되었을 것 같음
지금은 AI가 저작권과 저자 개념을 무너뜨린 시대인데, 새 콘텐츠를 어떻게 보호할 수 있을지 궁금함
예전에 내가 찍은 희귀한 스타일의 사진을 gpt가 거의 그대로 재현한 적이 있었음
- 참고 이미지 사용은 디지털 아트 업계의 표준 관행임. 다만 AI는 너무 유사하게 복제될 위험이 있음
- 콘텐츠를 보호하려면 에어갭(air gap) 이 유일한 방법임. 즉, 인터넷에 올리지 않는 것
  공개하는 순간 일정 수준의 오용은 감수해야 함. 모델이 원본에 과적합되는 경우는 아직 법적 선례가 없음
- 우리는 아마 포스트 저작권 시대로 진입 중임. 법이 곧 따라올 것임
- 누군가 내 작품을 복제해도, 그로 인해 수많은 사람이 본다면 그게 꼭 나쁜 일일까 하는 질문을 던짐
gpt-image-1.5로 스프라이트 맵과 UV 텍스처 맵을 생성해봤는데, Megaman Legends 느낌이 잘 살아 있었음
예시1, 예시2
다만 실제 3D 모델이 없어 정확한 UV 맵인지는 확신이 없음. Nano Banana 초기 버전은 이런 작업이 불가능했음
- 확실히 말하자면 이건 진짜 UV 맵이 아님. 예를 들어 Crash 모델의 등 부분이 없음
  이런 텍스처를 쓸 수는 있지만 왜곡이 심할 것임
  올바른 접근은 모델을 언랩하고 와이어프레임 UV 맵을 입력으로 사용하는 것임
  실제 Crash 모델은 여기에서 볼 수 있음
소프트웨어 제품의 다크 테마 적용 실험을 함
Gemini/Nano는 일부 패널만 회색으로 바꾸는 수준이었지만, GPT는 전체 앱을 멋지게 테마화했음
그래도 세부 디자인은 여전히 디자이너의 손길이 필요함
ChatGPT 이미지에 항상 있던 노란색 기운의 이유가 궁금했음
- 특정 시점부터 생긴 현상임. Ghibli 스타일 붐과 관련된 강화학습의 영향으로 보임
- 내 추측으로는 OpenAI가 이미지 정규화 계산을 잘못했을 가능성이 있음. 이번 새 모델에서는 사라짐
- Meta의 Codec Avatars도 비슷한 문제를 겪었음. 수백만 달러짜리 장비로 데이터를 모았지만 카메라 보정 실패로 초록빛이 돌았음
- 또 다른 가설은 영화에서 흔히 쓰이는 ‘Mexico 필터’ 가 학습 데이터에 스며든 결과라는 것임
- 인간 선호도 기반으로 스타일 튜닝을 하면서 미묘한 노란색 편향이 생겼고, 편집을 반복할수록 그 편향이 누적된 것임
“존재하지 않는 기억으로 이미지를 만든다”는 제품 피치가 이상하게 느껴짐
- 나도 그렇게 느끼지만, 시장 조사를 해보면 이미지 생성은 매우 인기 있음
  나는 주로 프로그래밍, 위키, 수학 등 텍스트 중심 작업에만 사용함
  이 현상은 예전에 Snapchat 필터가 유행하던 때와 비슷함. 나는 기본 모드로 두는 편이었음
- 그 프롬프트로 종이접기 동물을 만들어낸다면 오히려 더 섬뜩할 것 같음
- 언젠가 배우들이 자신의 이미지를 팔아 가짜 사진을 만드는 시대가 올 수도 있음
  결국 모두가 가상의 삶을 구독하게 되고, 카드 결제가 실패하면 현실로 돌아오게 되는 세상이 될지도 모름
새 모델이 API에서 작동한다고 해서 Golang SDK grail을 업데이트했는데,
호출 시 500 서버 오류가 발생함. 모델 목록에도 gpt-image-1.5는 없음
코드 예시 참고
- 실제로 아직 API에서 사용 불가임. OpenAI가 링크한 Image Playground에서도 보이지 않음
  내 로컬 플레이그라운드(gpt-image-1-playground)에서는 404를 처리하도록 수정함
  - 나도 시도해봤는데 동일하게 500 오류가 발생함.
    모델명을 잘못 넣으면 ‘지원되는 값은 gpt-image-1, gpt-image-1-mini뿐’이라는 메시지가 뜸
  - 점진적 롤아웃 중인 듯하며, 백엔드에서도 아직 확인되지 않음
여전히 Midjourney를 사용 중임. 다른 메이저 모델들은 스타일적 창의성이 부족하고 포토리얼리즘에만 집중함
- Midjourney의 최근 업데이트를 잘 모르지만, 스타일 일관성과 캐릭터 유지 기능이 중요함
  단일 이미지가 아니라 맥락 있는 시퀀스를 만들려면 이런 기능이 필수임
- 이 현상은 ‘의견형 모델 vs 사용자 선택형 모델’ 의 차이로 볼 수 있음. 전자가 잘 작동하면 강점을 가짐
- 놀랍다는 반응도 있었고, 관련 이미지를 모은 갤러리가 있는지 궁금해하는 사람도 있었음
- 이런 경향은 이미지 생성 이전부터 존재한 문화적 문제임.
  예술의 가치를 ‘렌더링 기술력’으로만 판단하는 경향이 있었고, 이는 사회적 맥락 속 문화 창작의 의미를 간과하는 태도임