Hacker News 의견
  • 새로운 이미지 생성 방식이 토큰을 사용하여 확산 대신 픽셀 공간에서 추론을 수행함

    • 예를 들어, 빈 틱택토가 있는 노트패드를 그리게 하고 첫 번째 수를 두게 한 후, 사용자가 수를 두는 방식으로 진행할 수 있음
    • 그림 스타일을 변경하거나 "낮을 밤으로 바꾸기", "모자 씌우기" 등 정보 보존 번역도 가능함
    • 모델의 해상도가 제한적이지만, 이 분야의 발전으로 앱을 이미지로 단계별로 설계하고 코드를 작성할 수 있는 가능성이 있음
    • 모델이 외부 이미지에서 "추론"을 계속할 수 있어, 원래 생성물이 좋지 않아도 개선 가능함
    • 모델이 빨라지면, LLM 이벤트에 기반하여 앱의 다음 프레임을 생성하는 진정한 생성 UI를 상상할 수 있음
    • 확산 모델도 이와 유사한 작업을 더 빠르게 수행할 수 있음
  • 4o Image Generation 소개: 가장 진보된 이미지 생성기임

    • Google의 Gemini 2.5: 가장 지능적인 AI 모델임
    • Gemini 2.0 소개: 가장 능력 있는 AI 모델임
    • 이러한 트렌드가 사라지고 Apple이 효과적인 것을 사용하여 다른 회사들이 새로운 용어를 복사하기를 바람
  • 왜 o1과의 벤치마크를 추가하지 않는지 궁금함

  • OpenAI의 GPT-4o Image Generation 라이브 스트림은 느리며, 이미지당 약 30초가 소요됨

    • Sam Altman은 "느리지만 생성된 이미지가 가치 있다"고 설명함
    • 확산 접근 대신, 원래 DALL-E와 유사하게 이미지 토큰을 생성하고 디코딩함
    • Google의 Gemini는 몇 초 만에 이미지를 생성하고 편집할 수 있음
    • 아직 API가 없으며, 느림으로 인해 경쟁사의 $0.03+/이미지보다 비용이 더 많이 들 것으로 예상됨
  • 시도해본 결과, 딸의 생일 초대장을 한 번에 생성할 수 있었음

    • 원하는 요소와 스타일을 정확히 맞춤
    • 날짜, 장소 등 세부 정보를 추가하도록 요청했을 때도 잘 수행함
    • 이전 모델은 절반도 못 따라왔음
  • 과포화된 CG/만화 스타일이 아닌 것이 만족스러움

  • 주어진 프롬프트가 4o 또는 Dall-E에 의해 처리되었는지 확인할 방법이 있는지 궁금함

    • 현재 프롬프트는 여전히 후자에 의해 처리되는 것 같음
    • 장기 계획은 4o로 완전히 이동하고 Dall-E를 별도의 탭으로 이동하는 것임
  • 와인 잔 테스트에서 여전히 실패함

  • "Best of 8" 태그가 붙은 많은 이미지가 얼마나 선택된 것인지 궁금함

    • 세 개의 무료 이미지 중 두 개는 인상적이었고 하나는 실패함
  • 새로운 모델로 반복 편집의 예시가 있음

    • 이전 모델보다 훨씬 나아졌지만 여전히 손가락이 너무 많거나 팔이 너무 많은 몸을 생성함