GPT-4o를 쓰면서 회사가 도덕적 판단자처럼 굴어 사용자의 요청을 자주 거부하는 게 정말 짜증남
합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음
사람들이 Altman이 ChatGPT에서 NSFW 허용한 걸 비판했지만, 나는 그게 기업 검열 완화로 가는 올바른 방향이라 생각함
사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
중국계 모델들을 써보면 훨씬 제한이 적음, 물론 몇 가지 예외는 있음
기업용 소프트웨어 중 NSFW 허용하는 걸 본 적이 없음
ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
기사에 날짜가 없어서 이상했는데, Wayback을 보니 text-to-image 페이지는 4월, image editing 페이지는 9월에 추가된 걸 확인함
날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
SEO 담당자들이 날짜 없는 글이 검색엔진에 더 잘 걸린다고 설득해서 그런 듯함
그들의 베개 양쪽이 다 뜨겁길 바람
맞음, 꽤 오래된 내용임. 요즘 AI에서는 일주일만 지나도 구식이 됨
처음엔 “image editing”이란 용어가 헷갈렸음
실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
이런 피드백을 여러 번 받아서 상단 네비게이션 바를 더 눈에 띄게 해야겠다고 생각함
참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델임
아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음
내가 본 사이트에서는 기존 이미지를 수정하는 걸로 보였음
예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
모델들이 내부적으로 여러 번 이미지를 생성하고 가장 좋은 결과만 보여주는 구조일 거라 추측함
GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
4o의 세피아톤은 후처리일 수도 있음
실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
직접 로컬에서 이미지 모델을 돌려보면, 대부분의 호스팅 모델이 여러 번 생성하지 않고 한 번만 실행한다는 걸 알 수 있음
다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
DALL·E 3의 사례는 이 글에서 잘 설명되어 있음
생성 시도 횟수와 각 프롬프트별 결과를 공개하면 더 흥미로울 것 같음
“Alexander the Great on a Hippity Hop”을 보고 바로 업보트했음
나도 그 장난감을 완전히 잊고 있었는데, 이걸 보고 어린 시절 추억이 떠올랐음
그래도 말 키메라 이미지가 더 마음에 듦
이미지 모델을 비교 테스트해보고 싶다면 BrandImageGen.com에서 무료로 시도해볼 수 있음
가입자 피드백을 기다리고 있음
“Editing Showdown” 덕분에 Seedream 모델을 처음 알게 됨
다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
FAQ에 평가 기준을 명확히 적어둠 PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
“길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
최종 평가는 명확한 기준에 따라 수동으로 결정함
LLM이 LLM을 평가하는 건 업계 표준임
인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음
Hacker News 의견
합법적인 일조차 “허용되지 않는다”고 막는 게 마치 1964년의 검열을 기업이 강제하는 느낌임
GPT-5는 또 대화 시작마다 “좋은 질문이에요”, “훌륭한 관찰이에요” 같은 아첨 섞인 멘트로 시작해서 더 못 견디겠음
사용자 선호 데이터를 RLHF로 학습시키면 모델이 아첨병이 되는 부작용이 생김
지금 주요 LLM들이 다 그런 상태지만, 그래도 GPT-4o보다는 낫다고 봄
ChatGPT는 기업 대상 제품이라, 만약 폭력적이거나 선정적인 이미지를 만들 수 있다면 대기업이 절대 구매하지 않을 것임
Fortune 500 기업 소프트웨어 구매 담당자로 일했던 경험상 100% 확신함
날짜가 없으니 처음 보면 동시에 만들어진 것처럼 보임
그들의 베개 양쪽이 다 뜨겁길 바람
실제론 새 이미지를 생성하는 기능인데, 기존 이미지를 수정하는 의미로 쓰인 듯함
Qwen3-VL-30B-A3B 같은 멀티모달 모델은 기존 이미지를 잘 수정함. imagegpt.com도 괜찮았지만 어떤 모델을 쓰는지는 모르겠음
참고로 Qwen3-VL은 이미지 생성이나 수정이 아니라 이미지 추론용 모델임
아마 Qwen-Image-Edit을 백엔드에서 사용했을 가능성이 있음
예를 들어 “대머리 남자에게 머리카락 추가” 프롬프트를 주면 원본이 수정된 결과가 나옴
기술적으로는 새 이미지를 생성하는 과정이지만, Photoshop에서 Save As 하는 것과 비슷한 개념이라 생각함
GPT-4o는 temperature가 낮아 일관성은 높지만 창의성은 떨어지고, Midjourney는 더 높은 temperature로 풍부한 배경과 질감을 만들어냄
4o의 세피아톤은 후처리일 수도 있음
실제로는 여러 단계를 거쳐 최종 이미지를 다듬는 워크플로우일 가능성이 큼
다만 LLM 기반 모델들은 프롬프트 재작성(prompt rewriting) 을 자주 사용함
DALL·E 3의 사례는 이 글에서 잘 설명되어 있음
가입자 피드백을 기다리고 있음
Generative AI Review 링크
다만 여러 번 시도 후 다른 LLM이 평가하는 구조가 정확히 이해되지 않음. 그 자체로 정확도가 제한적이지 않을까 생각함
PASS/FAIL 방식으로, 프롬프트에 맞는 이미지를 한 번도 생성하지 못하면 실패로 간주함
“길거리의 아무에게 보여줘도 프롬프트를 맞출 수 있을까?”라는 피셔너리 테스트 개념임
최종 평가는 명확한 기준에 따라 수동으로 결정함
인간 심사자를 상자에 가둬 7600개의 결과를 평가시킬 수는 없음
물론 LLM 심사도 완벽하진 않지만, 비교 가능성과 일관성 면에서는 인간보다 낫고
이를 최적화 목표가 아니라 성능 온도계로만 쓰면 큰 문제는 없음
다만 최적화 대상으로 삼으면 GPT-5처럼 이상한 결과물이 나올 수 있음