OpenAI, 이미지 생성기능을 API에서도 가능하게 출시
(openai.com)- OpenAI가 지난달 ChatGPT에 도입한 이미지 생성 기능이 출시 첫 주에 7억 개 이상의 이미지 생성 기록을 달성함
- 이제 이를 API로 확장한 gpt-image-1 모델이 출시되어 개발자와 기업이 자사 플랫폼에 통합 가능해짐
- 다양한 산업군에서 디자인, 로고 제작, 마케팅, 영상 편집 등에 활용되고 있음
- 안전성 기능을 강화했으며, API 사용 시 기본적으로 고객 데이터 학습에 사용하지 않음
- 품질에 따라 이미지 1개당 대략 $0.02 (낮음), $0.07 (중간), $0.19 (높음)
API를 통해 이미지 생성 모델 공개
- OpenAI는 ChatGPT에서 인기 있었던 이미지 생성 기능을 API에 확장해 gpt-image-1 모델을 출시함
- 이 모델은 다양한 스타일을 생성, 텍스트를 정밀하게 렌더링, 사용자 지정 가이드라인을 충실히 반영, 세계 지식 활용이 가능함
- 기업과 스타트업이 디자인, 전자상거래, 교육, 게임 등 다양한 분야에서 활용 중임
주요 사용 사례
- Adobe: Firefly와 Express 앱을 통해 다양한 미적 스타일을 실험할 수 있는 이미지 생성 기능 제공
- Airtable: AI를 활용하여 대규모 워크플로우에서 창의적인 생산성을 높임
-
Figma:
gpt-image-1
을 통해 이미지 생성 및 편집 기능을 플랫폼에 통합하여 사용자들이 아이디어를 시각적으로 탐색할 수 있게 함 -
Canva는 gpt-image-1을 Canva AI와 Magic Studio에 통합하여 디자인 생성 및 편집 기능 확장을 시도 중임
- 예를 들어, 손그림을 정교한 그래픽 요소로 변환하거나, 고정밀 편집을 가능하게 함
-
GoDaddy는 로고 생성 및 편집에 이미지 생성을 실험 중임
- 배경 제거, 타이포그래피 생성, 브랜드 정체성을 반영한 콘텐츠 제작이 가능함
- GoDaddy Airo®와의 연계를 통해 소셜 미디어 콘텐츠 및 마케팅 자산 제작도 지원
-
HubSpot은 마케팅 및 영업 자료 제작을 위해 이미지 생성 기능을 실험 중임
- 디자이너 없이도 고퀄리티 이미지 제작 가능성으로, 이메일, 소셜미디어, 랜딩 페이지에 활용할 수 있음
- Gamma: 매일 500만 개 이상의 AI 이미지를 생성하여 프레젠테이션과 웹사이트를 돕고 있음
- HeyGen: 아바타 생성 및 편집 기능을 개선하여 사용자에게 더 개인화된 경험 제공
- OpusClip: YouTube 크리에이터를 위한 클릭 유도형 썸네일 생성
- Instacart는 이미지 생성 API를 사용하여 레시피나 쇼핑 목록에 이미지 추가를 테스트 중임
- invideo는 gpt-image-1을 도입하여 텍스트 생성 향상, 정밀 편집 제어, 스타일 가이드 제공 기능을 추가함
안전성
- gpt-image-1은 ChatGPT에서 사용하는 4o 이미지 생성과 동일한 안전장치를 사용함
- 유해한 이미지 생성을 방지하며, 생성 이미지에 C2PA 메타데이터 포함
-
moderation
파라미터를 통해 필터링 민감도 조절 가능 (기본값: auto, 낮은 민감도: low) - OpenAI는 API 고객 데이터로 모델 학습하지 않으며, 입력/출력은 API 사용 정책을 따름
가격 정책
- 텍스트 입력 토큰: 100만 토큰당 $5
- 이미지 입력 토큰: 100만 토큰당 $10
- 이미지 출력 토큰: 100만 토큰당 $40
- 품질에 따라 이미지 1개당 대략 $0.02 (낮음), $0.07 (중간), $0.19 (높음)의 비용 발생
시작 방법
- gpt-image-1은 글로벌 Images API에서 사용 가능하며, 곧 Responses API도 지원 예정임
- 일부 개발자는 사용을 위해 조직 인증 절차를 거쳐야 할 수 있음
- Playground에서 기능을 테스트하고, 가이드 문서를 통해 시작 가능
Hacker News 의견
-
어제는 정부와 군 관련 작업에서 거절율이 매우 높다는 점에 대해 불만을 제기했음. 이는 계약자들이 CN에서 개발한 오픈 소스 모델을 사용하게 하여 작업이 손상될 수 있음
- 오늘은 해당 분야에서 일하는 회사들에게 거의 콘텐츠 검열이 없는 API 접근 계층이 있다는 것을 발견했음. 이 접근 계층을 요청하는 방법은 모르지만, 이미 이를 사용하고 있는 방위 계약자 4명과 대화를 나눴음
-
호기심에 각 품질 유형에 대해 동일한 프롬프트를 생성했음. 'Auto', 'low', 'medium', 'high'
- 프롬프트: "귀여운 개가 귀여운 고양이를 안고 있음"
- DALL:E 3 이미지 몇 개를 비교를 위해 댓글에 보여줬음
-
플레이그라운드에서 5개의 이미지를 생성했음. 하나는 텍스트 프롬프트만 사용했고, 나머지 4개는 휴대폰의 이미지를 사용했음. 가족 그룹 채팅을 위한 스튜디오 지브리 초상화로 $0.85를 썼는데, 고객용 제품으로 사용하기에는 너무 비쌈
-
수백 또는 수천 개의 이미지를 생성해야 하는 응용 프로그램이 궁금함. 가족 사진을 지브리 스타일로 만드는 것을 좋아하지만 대량으로 만들 필요는 없음. 이미지 생성을 사용할 때마다 일회성 작업이었고, ChatGPT UI에서 하는 것이 만족스러웠음
-
가격 측면에서 이 API는 참조를 제공하여 가치를 얻지 않는 한 가치를 정당화하기 어려울 것임. 생성된 'medium' 1024x1024는 이미지당 $0.04로, Imagen 3 및 Flux 1.1 Pro와 같은 비용 클래스에 속함. 새로운 플레이그라운드에서 테스트한 결과, medium 이미지는 두 경쟁 모델보다 품질이 낮고 여전히 15초 이상 생성 시간이 걸림
- 모델 프롬프트는 전통적인 모델보다 상당히 다르고 어려움. 전통적인 이미지 트릭은 기본적으로 작동하지 않으며, 상당한 프롬프트 보강 없이 작동하는 것을 얻기 어려움
-
"비디오 편집: invideo는 수백만 사용자가 AI를 사용하여 아이디어를 비디오로 변환할 수 있도록 함. gpt-image-1의 통합으로 플랫폼은 이제 개선된 텍스트 생성, 세밀한 편집 제어 및 고급 스타일 지침을 제공함"
- 이것이 비디오도 어떤 방식으로든 처리한다는 의미인지 궁금함
-
gpt-image-1 사용은 토큰당 가격이 책정되며, 텍스트 및 이미지 토큰에 대해 별도의 가격이 있음
- 텍스트 입력 토큰 (프롬프트 텍스트): 1M 토큰당 $5
- 이미지 입력 토큰 (입력 이미지): 1M 토큰당 $10
- 이미지 출력 토큰 (생성된 이미지): 1M 토큰당 $40
- 실제로는 저품질, 중품질, 고품질 정사각형 이미지당 각각 약 $0.02, $0.07, $0.19로 번역됨
- 스타트업에게는 다소 비싼 가격임
-
호기심 많은 사람들을 위해, 이것은 확산 기반이 아닌 LLM 기반임. 이는 텍스트 프롬프트에 훨씬 더 높은 정확도로 따름
- 예를 들어, 생성 이미지 앱 사용자(나 포함)가 캥거루 주머니에 있는 사람의 사진을 만들려고 했음
- 어떤 프롬프트를 사용하든 작동하지 않았음
- 이 새로운 모델은 한 번에 해냈음
-
GoDaddy는 고객이 쉽게 편집 가능한 로고를 생성할 수 있도록 이미지 생성을 통합하기 위해 적극적으로 실험 중임
- 1-2년 전 Discord에서 GoDaddy의 고객 생성 아이콘 작업을 하는 사람을 만났던 기억이 있음. 그 규모의 맞춤형 모델은 gpt-image-1로 대체될 가능성이 있음
-
가격 책정에서 "이미지 토큰"이 무엇을 나타내는지에 대한 아이디어가 있는 사람 있음?
- 고정 크기의 이미지 블록인지 궁금함