▲GN⁺ 2025-03-26 | parent | ★ favorite | on: OpenAI, 4o 이미지 생성 기능 공개 (openai.com)Hacker News 의견 새로운 이미지 생성 방식이 토큰을 사용하여 확산 대신 픽셀 공간에서 추론을 수행함 예를 들어, 빈 틱택토가 있는 노트패드를 그리게 하고 첫 번째 수를 두게 한 후, 사용자가 수를 두는 방식으로 진행할 수 있음 그림 스타일을 변경하거나 "낮을 밤으로 바꾸기", "모자 씌우기" 등 정보 보존 번역도 가능함 모델의 해상도가 제한적이지만, 이 분야의 발전으로 앱을 이미지로 단계별로 설계하고 코드를 작성할 수 있는 가능성이 있음 모델이 외부 이미지에서 "추론"을 계속할 수 있어, 원래 생성물이 좋지 않아도 개선 가능함 모델이 빨라지면, LLM 이벤트에 기반하여 앱의 다음 프레임을 생성하는 진정한 생성 UI를 상상할 수 있음 확산 모델도 이와 유사한 작업을 더 빠르게 수행할 수 있음 4o Image Generation 소개: 가장 진보된 이미지 생성기임 Google의 Gemini 2.5: 가장 지능적인 AI 모델임 Gemini 2.0 소개: 가장 능력 있는 AI 모델임 이러한 트렌드가 사라지고 Apple이 효과적인 것을 사용하여 다른 회사들이 새로운 용어를 복사하기를 바람 왜 o1과의 벤치마크를 추가하지 않는지 궁금함 OpenAI의 GPT-4o Image Generation 라이브 스트림은 느리며, 이미지당 약 30초가 소요됨 Sam Altman은 "느리지만 생성된 이미지가 가치 있다"고 설명함 확산 접근 대신, 원래 DALL-E와 유사하게 이미지 토큰을 생성하고 디코딩함 Google의 Gemini는 몇 초 만에 이미지를 생성하고 편집할 수 있음 아직 API가 없으며, 느림으로 인해 경쟁사의 $0.03+/이미지보다 비용이 더 많이 들 것으로 예상됨 시도해본 결과, 딸의 생일 초대장을 한 번에 생성할 수 있었음 원하는 요소와 스타일을 정확히 맞춤 날짜, 장소 등 세부 정보를 추가하도록 요청했을 때도 잘 수행함 이전 모델은 절반도 못 따라왔음 과포화된 CG/만화 스타일이 아닌 것이 만족스러움 주어진 프롬프트가 4o 또는 Dall-E에 의해 처리되었는지 확인할 방법이 있는지 궁금함 현재 프롬프트는 여전히 후자에 의해 처리되는 것 같음 장기 계획은 4o로 완전히 이동하고 Dall-E를 별도의 탭으로 이동하는 것임 와인 잔 테스트에서 여전히 실패함 "Best of 8" 태그가 붙은 많은 이미지가 얼마나 선택된 것인지 궁금함 세 개의 무료 이미지 중 두 개는 인상적이었고 하나는 실패함 새로운 모델로 반복 편집의 예시가 있음 이전 모델보다 훨씬 나아졌지만 여전히 손가락이 너무 많거나 팔이 너무 많은 몸을 생성함
Hacker News 의견
새로운 이미지 생성 방식이 토큰을 사용하여 확산 대신 픽셀 공간에서 추론을 수행함
4o Image Generation 소개: 가장 진보된 이미지 생성기임
왜 o1과의 벤치마크를 추가하지 않는지 궁금함
OpenAI의 GPT-4o Image Generation 라이브 스트림은 느리며, 이미지당 약 30초가 소요됨
시도해본 결과, 딸의 생일 초대장을 한 번에 생성할 수 있었음
과포화된 CG/만화 스타일이 아닌 것이 만족스러움
주어진 프롬프트가 4o 또는 Dall-E에 의해 처리되었는지 확인할 방법이 있는지 궁금함
와인 잔 테스트에서 여전히 실패함
"Best of 8" 태그가 붙은 많은 이미지가 얼마나 선택된 것인지 궁금함
새로운 모델로 반복 편집의 예시가 있음