Hacker News 의견들
  • 말을 탄 남자(horse riding man) ” 예시가 너무 기괴하다는 의견이 많아서 배경을 설명하고 싶음
    이 밈은 중국의 유명 진행자 차이캉융(蔡康永) 이 시상식에서 등에 말을 단 의상을 입은 사건에서 비롯됨
    당시 그가 ‘마치런(马启仁)’이라는 이름의 남성과의 루머에 휩싸였는데, 이 이름이 중국어로 ‘말을 탄 사람(马骑人)’과 발음이 같았음
    이 사건이 인터넷에서 퍼지며 밈이 되었고, 그래서 “horse riding man” 예시가 완전히 뜬금없는 건 아님
    다만 이미지 자체는 여전히 불길하고 기묘한 분위기를 줌
    사진 링크
    • 흥미로운 배경임. 이런 프롬프트는 이미지 생성기의 잠재공간(latent space) 을 시험하는 역할도 함
      보통은 반대로 ‘사람이 말을 타는’ 쪽이 쉬운데, ‘말이 사람을 타는’ 건 더 어려운 임베딩임
      번역된 프롬프트를 보니 “말의 해가 백인 엔지니어를 정복한다”는 풍자적 뉘앙스도 있었음
      SD1.5가 이걸 어떻게 그릴지는 보고 싶지 않음
    • 기사에 따르면 실제 이름은 马启仁이지 马骑人이 아님
      즉, 이름이 ‘말을 탄 사람’처럼 들리긴 하지만 직역은 아님
    • 이미지 생성계에는 “말을 탄 우주비행사(astronaut riding a horse) ” 문제도 있음
      관련 글: Horse Rides Astronaut Redux
    • 중국에서도 미국처럼 AI 이미지 생성에 대한 반감이 있는지 궁금함
      예를 들어 미국 기업들은 이런 이미지를 일정표나 홍보물에 쓰면 역풍을 걱정할 것 같음
      예시 이미지
    • 또 다른 영향으로는 DALL‑E 2의 유명한 문제도 있음
      ‘우주비행사가 말을 타는’ 이미지는 잘 만들지만 ‘말이 우주비행사를 타는’ 이미지는 끝내 실패했음
      이 문제는 최신 모델에서도 지속되었고, Qwen Image 팀도 이 어려운 벤치마크를 의식했을 것임
      결국 ‘우주비행사=사람’이므로 이 테스트가 중국 밈과 연결됨
  • 몇 가지 생각을 정리함
    1️⃣ 이전 릴리스 패턴을 보면 3~4주 내 오픈웨이트 가능성이 높음
    2️⃣ Z‑Image Turbo(6B), Flux.2 Klein(9B)처럼 저사양 GPU에서도 구동 가능한 모델을 목표로 하는 듯함
    3️⃣ 이미지 생성과 편집을 통합한 단일 모델이라 Qwen‑Image와 Qwen‑Edit를 따로 둘 필요가 없음
    4️⃣ 내 GenAI Showdown에서 Qwen‑Image는 로컬 모델 중 편집 성능 1위, 생성 성능도 상위권이었음
    로컬 버전이 나오면 사이트에 추가할 예정임
    • 기술에 익숙하지 않은 사람을 위해 설명하자면, 양자화(quantization) 를 잘 하면 LLM은 파라미터당 1바이트 정도로 돌릴 수 있음
      20B 모델이면 20GB RAM이면 충분하고, 이런 규모면 iGPU로도 가능함
      128GB 통합 RAM 구성도 2200달러 정도면 가능함
      GPU를 따로 사는 것보다 훨씬 저렴한 셋업임
    • 기술적으로 보면, Qwen 2512는 19B 파라미터로 FP16에서 40GB였고, FP8로 3090에 맞았음
      자체 VAE를 썼는데 고주파 아티팩트 문제가 있었음
      새 Qwen 2는 7B 파라미터로 훨씬 가벼워졌고, Qwen 3 VL로 업그레이드됨
      이제 Image와 Edit를 합친 Omni 모델로 진화했음
      Z‑Image, Klein, Qwen 세 모델이 동시에 “SDXL2” 자리를 두고 경쟁 중임
      오픈웨이트가 공개되면 정말 흥미로울 것임
  • 잠깐이지만 Midjourney가 이미지 생성의 정점처럼 느껴졌던 시기가 있었음
    • 아직도 그렇지 않음? 내가 아는 많은 크리에이터들은 여전히 주관적 미감 때문에 Midjourney를 선호함
    • Midjourney는 지금 어떻게 된 걸까 궁금함
    • 이미지 생성의 상품화 속도가 너무 빠름
      3~4개월마다 SOTA가 바뀌고, 지난 분기의 혁신은 API 상품이 됨
      이제 병목은 모델이 아니라 프롬프트를 다루는 사람
      코드 생성에서도 같은 패턴이 보임
  • “horse riding man” 프롬프트 내용이 정말 강렬함
    황량한 초원, 먼지, 갈색 말이 남자를 짓누르는 장면 등 극도로 사실적인 묘사로 구성되어 있음
    전체적으로 원초적 긴장감과 생물적 힘의 충돌을 표현한 이미지임
    • 혼란스러운 사람들을 위한 참고자료로, 한나라 시대의 “말이 흉노를 짓밟는 조각상”이 있음
      관련 링크
  • 최근 Linux에서 LMStudio로 로컬 모델을 써봤는데 정말 간단했음
    다만 이미지 생성은 지원하지 않아서, Qwen 같은 diffusion 모델을 Linux에서 돌릴 때 어떤 툴을 쓰는지 궁금함
    • 실제로 이 계열 모델을 쓰는 사람들은 대부분 ComfyUI를 사용함
      커뮤니티가 양자화, gguf 포맷 변환, 속도 최적화까지 다 해줌
    • 변화가 너무 빨라서 나는 직접 Python HTTP 서버를 만들어 JSON 인터페이스로 각 구현체를 라우팅함
      주로 diffusers를 쓰는데, 속도는 느려도 새 아키텍처 지원이 빠름
    • ComfyUI가 Stable Diffusion용으로 최고임
    • 꼭 한 번 써보길 권함. 최근엔 템플릿 기능 덕분에 훨씬 친숙해졌음
    • AMD 플랫폼이라면 Lemonade가 버전 9.2부터 이미지 생성을 지원함
      사이트 / 릴리스 노트
  • 중국어 세로쓰기(Vertical Typography) 가 조금 어색했음
    세로용 문장부호(예: ︒)를 써야 자연스러움
  • 나는 매일 생성형 AI로 인포그래픽을 만들지만, 솔직히 99%는 형편없음
    LinkedIn이 그런 이미지로 넘쳐남
    • 그래도 LinkedIn이 원래부터 나빴으니 더 나빠진 건 아님
    • 인포그래픽과 프레젠테이션은 아직 NanoBananaPro 전용 기능
    • 인포그래픽 품질은 결국 작성자의 역량에 달림
      좋은 인포그래픽을 만들거나 설명할 수 있는 사람이 거의 없음
    • GitHub의 쓸모없는 ASCII 다이어그램처럼, 이런 시각화는 인지적 잡음에 불과함
      다른 예시는 Gas Town 스레드 참고
  • 아쉽게도 이번엔 오픈웨이트 공개가 없는 듯함
    • 그래도 불과 한 달 전쯤에도 오픈웨이트 이미지 모델을 냈으니, 이번에도 가능성은 있음
      마지막 공개는 2025년 12월쯤이었음
  • 그들의 만화 패널 예시가 마음에 들어서 Qwen Chat에서 직접 시도해봤음
    블로그와 동일한 프롬프트를 쓰면 잘 작동하지만, 입력을 조금만 바꾸면 패널 수가 틀어지거나 영어 대사가 중국어로 바뀜
    즉, 아직은 일관성이 부족한 기능
  • “승마 응용 이미지”가 흥미로웠음
    • 하지만 “말이 사람을 덮치는 장면”을 데모로 쓴 건 좀 의외였음
      그래도 각자의 선택이겠음