GenAI Showdown 사이트의 gpt-image 1.5 결과를 공유함
OpenAI는 여전히 프롬프트 이해력이 강하지만 이미지 충실도(fidelity) 가 약한 편이었음. 이번 업데이트로 그 약점이 꽤 개선됨
특히 전체 미학을 해치지 않고 국소적 편집(localized edit) 을 잘 수행함. 이전 점수 4/12에서 8/12로 두 배 향상되었고, 유일하게 ‘Giraffe prompt’를 통과한 모델임
모델의 조종 가능성(steerability) 도 90% 수준으로 높음
새로 추가된 기능으로는 모델별 실패 사례(outtakes) 섹션, REVE 및 Flux.2 Dev 모델 추가, 그리고 가중치 기반 점수 시스템이 있음
세 모델(gpt-image-1, gpt-image-1.5, NB Pro)을 비교하려면 이 링크 참고
Nano Banana 관련 실험을 정리한 블로그 글을 준비 중임
새 ChatGPT Image 모델을 테스트해보니, Nano Banana Pro보다 훨씬 못하지만 기본 Nano Banana보다는 나았음
가격은 불분명하지만 gpt-image-1.5가 기존 모델보다 약 20% 저렴해 보임
흥미로운 점은 그리드 생성(grid generation) 사례임. NBP는 4x4 이상에서 프롬프트 일관성이 무너지는데, OpenAI는 6x6 사례를 시도한 것이 인상적임
오늘 중으로 gpt-image-1.5를 내 GenAI Showdown에 돌려볼 예정임
그동안 NB Pro의 인상적인 결과물은 이 블로그에서 볼 수 있음
NB Pro는 처음 보는 직소 퍼즐을 조립하거나, 3D 지형을 추정하고, 창문을 거울로 바꾸는 등 놀라운 결과를 냈음
GPT1.5를 직접 테스트해보니 이미지 품질은 NBP와 비슷했지만 프롬프트 일관성과 세계 모델 이해력은 떨어졌음
예를 들어 노 젓는 두 사람을 요청했더니, 배가 너무 작아 거의 들어가지 못할 정도였음
또 수정 프롬프트를 줄 때마다 이전 대화가 사라지는 버그가 매우 불편했음
자연스러운 결과를 위해 “shaky amateur smartphone photo” 같은 문구를 프롬프트 앞에 추가했음
참고로 관련 반응은 이 트윗에서도 볼 수 있음
10년 넘게 영화 제작을 해온 입장에서, 일관된 장면 구성 도구가 절실함
gpt-image-1은 Nano Banana(Pro)보다 previz-to-render 기능이 훨씬 뛰어남
Nano Banana는 저해상도 프리비즈 요소를 그대로 유지하지만, gpt-image-1은 인물 포즈와 씬 블로킹을 이해하고 업스케일까지 수행함
예시 영상: 3D + Posing + Blocking, 세트 재활용 버전, Gaussian splats, 추가 예시
앞으로는 스타일 제어력과 속도, 참조 이미지 기반 스타일링이 가능한 모델이 필요함
Adobe도 비슷한 기능을 실험 중이며, Relighting, Image→3D 편집, Gaussian 편집, 3D→Image 변환 등을 시연함
나는 이 기능들을 오픈소스 데스크톱 도구로 직접 구현 중이며 Rust로 개발 중임
실험을 흥미롭게 봤다는 피드백을 받음. 덕분에 프롬프트 작성법이 개선되었고 기대치도 현실적으로 조정됨
2010년에 포토샵 인력들이 이미지를 조합해주는 서비스였다면 큰 논란이 되었을 것 같음
지금은 AI가 저작권과 저자 개념을 무너뜨린 시대인데, 새 콘텐츠를 어떻게 보호할 수 있을지 궁금함
예전에 내가 찍은 희귀한 스타일의 사진을 gpt가 거의 그대로 재현한 적이 있었음
참고 이미지 사용은 디지털 아트 업계의 표준 관행임. 다만 AI는 너무 유사하게 복제될 위험이 있음
콘텐츠를 보호하려면 에어갭(air gap) 이 유일한 방법임. 즉, 인터넷에 올리지 않는 것
공개하는 순간 일정 수준의 오용은 감수해야 함. 모델이 원본에 과적합되는 경우는 아직 법적 선례가 없음
우리는 아마 포스트 저작권 시대로 진입 중임. 법이 곧 따라올 것임
누군가 내 작품을 복제해도, 그로 인해 수많은 사람이 본다면 그게 꼭 나쁜 일일까 하는 질문을 던짐
gpt-image-1.5로 스프라이트 맵과 UV 텍스처 맵을 생성해봤는데, Megaman Legends 느낌이 잘 살아 있었음 예시1, 예시2
다만 실제 3D 모델이 없어 정확한 UV 맵인지는 확신이 없음. Nano Banana 초기 버전은 이런 작업이 불가능했음
확실히 말하자면 이건 진짜 UV 맵이 아님. 예를 들어 Crash 모델의 등 부분이 없음
이런 텍스처를 쓸 수는 있지만 왜곡이 심할 것임
올바른 접근은 모델을 언랩하고 와이어프레임 UV 맵을 입력으로 사용하는 것임
실제 Crash 모델은 여기에서 볼 수 있음
소프트웨어 제품의 다크 테마 적용 실험을 함
Gemini/Nano는 일부 패널만 회색으로 바꾸는 수준이었지만, GPT는 전체 앱을 멋지게 테마화했음
그래도 세부 디자인은 여전히 디자이너의 손길이 필요함
ChatGPT 이미지에 항상 있던 노란색 기운의 이유가 궁금했음
특정 시점부터 생긴 현상임. Ghibli 스타일 붐과 관련된 강화학습의 영향으로 보임
내 추측으로는 OpenAI가 이미지 정규화 계산을 잘못했을 가능성이 있음. 이번 새 모델에서는 사라짐
Meta의 Codec Avatars도 비슷한 문제를 겪었음. 수백만 달러짜리 장비로 데이터를 모았지만 카메라 보정 실패로 초록빛이 돌았음
또 다른 가설은 영화에서 흔히 쓰이는 ‘Mexico 필터’ 가 학습 데이터에 스며든 결과라는 것임
인간 선호도 기반으로 스타일 튜닝을 하면서 미묘한 노란색 편향이 생겼고, 편집을 반복할수록 그 편향이 누적된 것임
“존재하지 않는 기억으로 이미지를 만든다”는 제품 피치가 이상하게 느껴짐
나도 그렇게 느끼지만, 시장 조사를 해보면 이미지 생성은 매우 인기 있음
나는 주로 프로그래밍, 위키, 수학 등 텍스트 중심 작업에만 사용함
이 현상은 예전에 Snapchat 필터가 유행하던 때와 비슷함. 나는 기본 모드로 두는 편이었음
그 프롬프트로 종이접기 동물을 만들어낸다면 오히려 더 섬뜩할 것 같음
언젠가 배우들이 자신의 이미지를 팔아 가짜 사진을 만드는 시대가 올 수도 있음
결국 모두가 가상의 삶을 구독하게 되고, 카드 결제가 실패하면 현실로 돌아오게 되는 세상이 될지도 모름
새 모델이 API에서 작동한다고 해서 Golang SDK grail을 업데이트했는데,
호출 시 500 서버 오류가 발생함. 모델 목록에도 gpt-image-1.5는 없음 코드 예시 참고
실제로 아직 API에서 사용 불가임. OpenAI가 링크한 Image Playground에서도 보이지 않음
내 로컬 플레이그라운드(gpt-image-1-playground)에서는 404를 처리하도록 수정함
나도 시도해봤는데 동일하게 500 오류가 발생함.
모델명을 잘못 넣으면 ‘지원되는 값은 gpt-image-1, gpt-image-1-mini뿐’이라는 메시지가 뜸
점진적 롤아웃 중인 듯하며, 백엔드에서도 아직 확인되지 않음
여전히 Midjourney를 사용 중임. 다른 메이저 모델들은 스타일적 창의성이 부족하고 포토리얼리즘에만 집중함
Midjourney의 최근 업데이트를 잘 모르지만, 스타일 일관성과 캐릭터 유지 기능이 중요함
단일 이미지가 아니라 맥락 있는 시퀀스를 만들려면 이런 기능이 필수임
이 현상은 ‘의견형 모델 vs 사용자 선택형 모델’ 의 차이로 볼 수 있음. 전자가 잘 작동하면 강점을 가짐
놀랍다는 반응도 있었고, 관련 이미지를 모은 갤러리가 있는지 궁금해하는 사람도 있었음
이런 경향은 이미지 생성 이전부터 존재한 문화적 문제임.
예술의 가치를 ‘렌더링 기술력’으로만 판단하는 경향이 있었고, 이는 사회적 맥락 속 문화 창작의 의미를 간과하는 태도임
Hacker News 의견들
GenAI Showdown 사이트의 gpt-image 1.5 결과를 공유함
OpenAI는 여전히 프롬프트 이해력이 강하지만 이미지 충실도(fidelity) 가 약한 편이었음. 이번 업데이트로 그 약점이 꽤 개선됨
특히 전체 미학을 해치지 않고 국소적 편집(localized edit) 을 잘 수행함. 이전 점수 4/12에서 8/12로 두 배 향상되었고, 유일하게 ‘Giraffe prompt’를 통과한 모델임
모델의 조종 가능성(steerability) 도 90% 수준으로 높음
새로 추가된 기능으로는 모델별 실패 사례(outtakes) 섹션, REVE 및 Flux.2 Dev 모델 추가, 그리고 가중치 기반 점수 시스템이 있음
세 모델(gpt-image-1, gpt-image-1.5, NB Pro)을 비교하려면 이 링크 참고
Nano Banana 관련 실험을 정리한 블로그 글을 준비 중임
새 ChatGPT Image 모델을 테스트해보니, Nano Banana Pro보다 훨씬 못하지만 기본 Nano Banana보다는 나았음
가격은 불분명하지만 gpt-image-1.5가 기존 모델보다 약 20% 저렴해 보임
흥미로운 점은 그리드 생성(grid generation) 사례임. NBP는 4x4 이상에서 프롬프트 일관성이 무너지는데, OpenAI는 6x6 사례를 시도한 것이 인상적임
그동안 NB Pro의 인상적인 결과물은 이 블로그에서 볼 수 있음
NB Pro는 처음 보는 직소 퍼즐을 조립하거나, 3D 지형을 추정하고, 창문을 거울로 바꾸는 등 놀라운 결과를 냈음
예를 들어 노 젓는 두 사람을 요청했더니, 배가 너무 작아 거의 들어가지 못할 정도였음
또 수정 프롬프트를 줄 때마다 이전 대화가 사라지는 버그가 매우 불편했음
자연스러운 결과를 위해 “shaky amateur smartphone photo” 같은 문구를 프롬프트 앞에 추가했음
참고로 관련 반응은 이 트윗에서도 볼 수 있음
gpt-image-1은 Nano Banana(Pro)보다 previz-to-render 기능이 훨씬 뛰어남
Nano Banana는 저해상도 프리비즈 요소를 그대로 유지하지만, gpt-image-1은 인물 포즈와 씬 블로킹을 이해하고 업스케일까지 수행함
예시 영상: 3D + Posing + Blocking, 세트 재활용 버전, Gaussian splats, 추가 예시
앞으로는 스타일 제어력과 속도, 참조 이미지 기반 스타일링이 가능한 모델이 필요함
Adobe도 비슷한 기능을 실험 중이며, Relighting, Image→3D 편집, Gaussian 편집, 3D→Image 변환 등을 시연함
나는 이 기능들을 오픈소스 데스크톱 도구로 직접 구현 중이며 Rust로 개발 중임
2010년에 포토샵 인력들이 이미지를 조합해주는 서비스였다면 큰 논란이 되었을 것 같음
지금은 AI가 저작권과 저자 개념을 무너뜨린 시대인데, 새 콘텐츠를 어떻게 보호할 수 있을지 궁금함
예전에 내가 찍은 희귀한 스타일의 사진을 gpt가 거의 그대로 재현한 적이 있었음
공개하는 순간 일정 수준의 오용은 감수해야 함. 모델이 원본에 과적합되는 경우는 아직 법적 선례가 없음
gpt-image-1.5로 스프라이트 맵과 UV 텍스처 맵을 생성해봤는데, Megaman Legends 느낌이 잘 살아 있었음
예시1, 예시2
다만 실제 3D 모델이 없어 정확한 UV 맵인지는 확신이 없음. Nano Banana 초기 버전은 이런 작업이 불가능했음
이런 텍스처를 쓸 수는 있지만 왜곡이 심할 것임
올바른 접근은 모델을 언랩하고 와이어프레임 UV 맵을 입력으로 사용하는 것임
실제 Crash 모델은 여기에서 볼 수 있음
소프트웨어 제품의 다크 테마 적용 실험을 함
Gemini/Nano는 일부 패널만 회색으로 바꾸는 수준이었지만, GPT는 전체 앱을 멋지게 테마화했음
그래도 세부 디자인은 여전히 디자이너의 손길이 필요함
ChatGPT 이미지에 항상 있던 노란색 기운의 이유가 궁금했음
“존재하지 않는 기억으로 이미지를 만든다”는 제품 피치가 이상하게 느껴짐
나는 주로 프로그래밍, 위키, 수학 등 텍스트 중심 작업에만 사용함
이 현상은 예전에 Snapchat 필터가 유행하던 때와 비슷함. 나는 기본 모드로 두는 편이었음
결국 모두가 가상의 삶을 구독하게 되고, 카드 결제가 실패하면 현실로 돌아오게 되는 세상이 될지도 모름
새 모델이 API에서 작동한다고 해서 Golang SDK grail을 업데이트했는데,
호출 시 500 서버 오류가 발생함. 모델 목록에도 gpt-image-1.5는 없음
코드 예시 참고
내 로컬 플레이그라운드(gpt-image-1-playground)에서는 404를 처리하도록 수정함
모델명을 잘못 넣으면 ‘지원되는 값은 gpt-image-1, gpt-image-1-mini뿐’이라는 메시지가 뜸
여전히 Midjourney를 사용 중임. 다른 메이저 모델들은 스타일적 창의성이 부족하고 포토리얼리즘에만 집중함
단일 이미지가 아니라 맥락 있는 시퀀스를 만들려면 이런 기능이 필수임
예술의 가치를 ‘렌더링 기술력’으로만 판단하는 경향이 있었고, 이는 사회적 맥락 속 문화 창작의 의미를 간과하는 태도임