GN⁺: HN 화제: 반사를 그림으로 바꾸는 벽걸이형 Diffusion Mirror
(matthieulc.com)-
PabloNet
-
인터넷에 연결된 AI가 창의적일 수 있는지에 대한 논쟁은 본질적인 문제와는 거리가 멀다고 생각함. 예술은 내면 세계를 드러내는 것이며, 기술은 그 일부에 불과함. 예술이 기술을 너무 많이 요구하는 것은 안타까운 일임. 두 요소를 분리할 수 있는지에 대한 가능성이 보임. 80억 명의 비예술가들이 사용하는 저렴한 보간적 창의성은 새로운 세계관을 드러낼 수 있음.
-
이러한 이유로, 예술에 소질이 없는 나는 다양한 AI 기반 예술 형식에 매우 흥미를 느끼고 있음. 몇 달 전부터 StreamDiffusion을 사용하여 웹캠 피드를 실시간으로 확산시키는 작업을 시작했음. 아름다운 시각적 효과를 생성하고 새로운 감정을 불러일으키고자 함. 그러나 노트북 형태는 환상을 깨뜨림. 그래서 최근에는 벽에 걸 수 있는 LCD 프레임을 제작하여 최소한의 환상 파괴 요소로 만들었음. 이 설정의 가장 큰 장점은 단순한 화면이 아닌, 영구적인 객체로서 새로운 상호작용의 채널을 열어준다는 것임.
-
현재 설정의 주요 문제는 낮은 프레임 속도임. TensorRT를 사용하고 이미지 압축을 통해 속도를 높였지만, 여전히 개선의 여지가 많음.
-
관심 있는 사람들을 위해 제작 및 기여 방법을 공유함:
- 클라이언트 및 서버 코드 제공
- 서버 호스팅은 RunPod 사용
- 클라이언트는 Raspberry Pi 5에서 실행
- 10.1인치 Pi 화면 사용
- 적외선 조명 사용
- 일반적인 프레임 사용
- 적외선 Pi 카메라 사용
- 카메라를 위한 구멍을 뚫기 위해 펀처 사용 (드릴은 작동하지 않음)
- 다양한 전처리 필터를 사용하여 실험, 단순한 프롬프트만으로는 부족함. img2img는 전처리 없이 너무 현실적으로 보임. 이 글에서 보이는 파란 피카소 스타일을 얻기 위해 캐니 엣지 검출, 파란색 착색 및 블러링을 혼합하여 사용함.
GN⁺의 정리
- AI 기반 예술은 기술과 창의성을 분리하여 새로운 시각을 제공할 수 있는 가능성을 보여줌.
- StreamDiffusion을 활용한 실시간 웹캠 피드 확산은 새로운 감정과 시각적 경험을 제공함.
- LCD 프레임을 활용한 설치는 단순한 화면을 넘어 영구적인 예술 작품으로서의 가능성을 열어줌.
- 낮은 프레임 속도와 같은 기술적 문제는 여전히 개선의 여지가 있음.
- 비슷한 기능을 가진 프로젝트로는 DeepArt.io와 RunwayML 등이 추천됨.
Hacker News 의견
-
JPEG 바이트를 Base64로 인코딩하면 페이로드 크기가 약 30% 증가하고 클라이언트와 서버의 CPU 사이클을 소모하게 됨. Websocket 프로토콜은 이진 페이로드를 전송할 수 있으므로 텍스트로 변환할 필요가 없음
- 손실이 있는 JPG 압축을 제거하고 네트워크를 통해 원시 RGB 바이트를 전송하는 것을 고려할 수 있음
- StreamDiffusion은 파이프라인에서 광범위한 배칭을 통해 높은 프레임 속도를 달성할 수 있음. 클라이언트가 한 번에 하나의 프레임만 전송하고 응답을 기다리기 때문에 이점을 얻지 못하고 있음
- SDXL Turbo 및 Lightning 모델은 img2img에서 매우 빠르지만 해상도가 512² 또는 1024² 픽셀로 제한됨. 고급 소비자용 GPU에서 실시간으로 실행 가능함
-
예술은 내면 세계를 드러내는 것이며, 기술은 일부에 불과함. 기술 격차가 단순한 불편함이라는 생각에 의문을 가짐
- 그림을 그리거나 음악을 만드는 법을 배우는 것이 자신에게 어떤 변화를 가져다주며, 더 깊은 삶의 교훈을 가르쳐준다고 생각함
- 위대한 예술 작품은 천재에 의해 만들어진 것이 아니라, 천재성은 예기치 않게 찾아오는 것임. 기술 격차를 제거하는 것은 이러한 기회를 제거하는 것임
-
예술적 가치는 언급하지 않지만, 도구 수집가로서 흥미로운 부분이 있음
- 카메라를 위한 프레임의 판지에 구멍을 뚫기 위해 펀처를 사용함. 드릴은 작동하지 않았음
- 드릴이 판지에서 작동하지 않는 방식에 대한 더 많은 세부 정보나 해석을 원함
-
카메라가 프레임이 아닌 다른 곳에 있으면 더 멋질 것이라고 생각함. 예술적 거울을 보는 것은 조금 지루함
- 다른 사람의 집에 두 번째 거울을 만들고, 한 거울의 카메라를 다른 거울로 피드하여 서로의 '반사'를 볼 수 있게 함
-
예술은 감정을 보존하고 창조하는 것이라고 항상 생각함. 벽에 있는 바나나도 예술이며, 대중 음악도 여전히 예술임
- 이 발명품은 확실히 예술 작품이지만, 그 출력물은 그렇지 않다고 생각함. 구름처럼 다양한 모양을 만들 수 있지만, 여전히 평균적인 무작위성임
-
이미지 간의 높은 프레임 속도 변형 효과를 고려해본 적이 있는지 물음. 이는 효과적인 프레임 속도를 증가시키고 멋져 보일 것임
-
현재 설정의 주요 문제는 낮은 프레임 속도임. 이를 기능으로 간주하며, 이미지를 처리할 시간이 있는 것이 나쁘지 않음
- 업데이트 빈도를 5-15분으로 늘리고, 변화나 움직임이 감지될 때마다 새로운 이미지를 캡처하고 생성하도록 함
-
가장 전력 소모가 많은 거울에 대한 상을 줌. 입력의 작은 변화에 대해 그림이 안정적이지 않음을 발견함
-
일부 이미지를 고정할 수 있는 방법이 있는지 물음. 일부 이미지는 유지하면 멋질 것이라고 생각함 (예: 프로필 사진이나 잠금 화면 사진)