Flux 2 Klein 순수 C 기반 추론

▲

GN⁺ 3달전 | parent | ★ favorite | on: Flux 2 Klein 순수 C 기반 추론(github.com/antirez)

Hacker News 의견들

이 프로젝트가 가능했던 이유는 Opus에게 IMPLEMENTATION_NOTES.md 파일을 반드시 사용하도록 지시했기 때문임
개발 중 발견한 모든 사항을 이 파일에 누적하고, 항상 최신 상태로 유지하며, 컨텍스트 압축 후 즉시 처리하도록 명시했음
이런 방식 덕분에 대규모 코딩 작업을 효율적으로 진행하면서도 흐름을 잃지 않을 수 있었음
자세한 내용은 GitHub의 IMPLEMENTATION_NOTES.md 파일 참고
- 멋짐. 지속적으로 업데이트되는 명세(spec) 가 핵심임
  나는 vibe-speccing 글에서 이 접근법을 다뤘음
  또한 명세 하단에 “실험 로그”를 두어, 예상치 못한 변화가 생길 때마다 기록하도록 하는 것도 유용했음
- Steve Yegge의 Beads를 사용하면 마크다운 파일의 불필요한 부분을 줄일 수 있음
  혹시 벤치마크를 돌려봤는지 궁금함. Python 스택이 C 기반 추론 도구보다 빠른지 느린지도 흥미로움
- README에서 언급한 다른 교훈들도 글로 정리할 계획이 있는지 궁금함
  오랫동안 팬으로서, 이런 도구를 활용한 당신의 관점을 듣고 싶음
- 사용한 프롬프트 로그나 구현 노트 외의 자료를 공유할 수 있는지 궁금함
  당신의 작업 과정을 배우고 싶음
- Claude나 다른 LLM에서도 작업 정의, 구현 노트 추가, 하위 작업 및 의존성 관리가 가능한 솔루션이 있음
  나는 Beads를 쓰고 있는데, 특히 대형 프로젝트에서 결과 품질이 확실히 좋아짐
README에서의 동기를 흥미롭게 읽었음
나도 비슷하게 PROMPTS.md 파일을 포함하려고 시도 중임
공유와 교육 목적이라면, 숙련된 개발자가 어떤 접근을 쓰는지 보여주는 게 도움이 됨
Claude hook을 이용해 이를 결정론적으로 유지할 수 있음. AGENTS.md에는 읽기만 가능하도록 명시했음
LLM 간 전환 시에도 작업 배경을 전달하는 데 유용했음
- 이번엔 프롬프트 대신 명세서를 작성했지만, 이후 모델을 수 시간 동안 조정해야 했음
  결국 프롬프트는 이런 상호작용의 총합이라, 의미 있게 재구성하기가 매우 어려움
LLM을 이용해 다른 언어로 트랜스파일하는 실험에 대해, 결과와 과정이 어땠는지 궁금함
나도 최근 프로젝트 병목 구간을 Claude에게 “Rust로 다시 써줘”라고 요청했더니 속도가 크게 향상되었음
다만 결과물이 실험실 외부에서 신뢰할 수준은 아니었음
- 상황에 따라 다름. 이번엔 Flux의 Black Forest Labs가 제공한 참조 코드만으로 작업했음
  핵심은 에이전트가 피드백을 통해 진척 여부를 이해하고, 참조 구현과 비교하며 디버깅할 수 있어야 함
  모든 코드는 내가 원하는 결과를 명시한 구현 힌트를 기반으로 작성되었음
  오늘 누군가 내 HNSW 벡터셋 구현을 Swift로 포팅했는데, 라이선스가 동일해서 기분이 좋음
- 나는 “현재 코드 변경을 논리 오류 관점에서 감사하라”는 프롬프트 세트를 사용함
  Claude가 생성한 코드를 GPT-5.x-Codex로 다시 검사함
  Opus 4.5도 여전히 off-by-one 같은 실수를 하므로, 다른 모델을 피어 리뷰어로 쓰면 효과적임
  내 검증 순서는 lint → test → 다른 모델 → 나 순서로 진행됨
원본 FLUX.2 [klein] 모델과 Python 코드는 불과 3일 전에 공개되었음
관련 논의는 이곳 참고
- Opus 없이 antirez가 얼마나 걸렸을지 궁금함
C로 작성됐다고 해서 반드시 C 수준의 성능을 내는 건 아님
벤치마크를 보면 PyTorch보다 8배 느림. LLM이 이런 수준의 고성능 코드를 생성하기엔 아직 한계가 있음
- PyTorch 버전은 GPU(Metal Performance Shaders)를 사용하지만, C 버전은 단일 CPU 코어만 사용함
  느린 이유는 LLM 코드 품질이 아니라 하드웨어 차이 때문임
  실제 핵심 연산은 PyTorch와 동일한 커널 라이브러리를 호출함
- 나는 CUDA 커널과 8bit 옵티마이저를 작성해봤는데, LLM이 속도 최적화에 꽤 능함
  여러 시도와 벤치마크를 반복해 빠르게 개선하며, torch의 강력한 기준선도 능가한 적이 있음
Salvatore가 ML 분야 첫 OSS 프로젝트를 진행한 걸로 아는데, 관련 배경 지식은 어떻게 쌓았는지 궁금함
Claude가 도메인 전문성을 제공하는 데 도움이 되었는지도 알고 싶음
- 예전부터 AI를 즐겨 다뤘음. 예를 들어 gguf-tools를 만든 적 있음
  이탈리아어로 진행하는 AI 유튜브 채널도 운영 중이며, 논문을 읽고 해설함
  2003년에 첫 신경망 구현을 만들었고, 이후에도 PyTorch나 C로 소형 GPT 모델을 계속 실험해왔음
  Redis Vector Sets 작업을 하며 다양한 임베딩 모델을 다뤘음
  Claude 덕분에 구현 속도는 빨랐지만, 기본 개념은 이미 알고 있었음
  프로그래밍 배경만 있고 AI 경험이 거의 없는 경우에도 가능하겠지만, 더 많은 왕복 피드백이 필요할 것 같음
지난달 비슷한 실험으로 Qwen 3 Omni를 llama.cpp로 포팅했음
GGUF 변환, 양자화, 입출력 모달리티를 일주일 만에 구현했지만, PR은 거절당했음
관련 링크: PR #18404, Hugging Face 모델
- AI가 작성한 GGML 커널이 비최적화되어 거절된 건 이상함
  수동으로 커널을 작성하는 사람이 모델을 잘 유도하면 훌륭한 결과를 낼 수 있음
  이런 흐름이 계속되면, 더 빠르고 나은 llama.cpp 포크가 등장할 것임
OpenBLAS와 MPS가 거의 같은 속도를 낸다는 점이 흥미로움
README에는 GPU를 사용하는 건 MPS뿐이라고 되어 있음
Claude에게 같은 작업을 시키면 MIT 라이선스로 내 이름을 붙여도 되는지 궁금함
참고로 Flux2는 Apache License를 사용함
큰 차이는 없지만, 이런 라이선스 세부사항이 신경 쓰임
- 참조 코드는 추론 파이프라인 설정만 보여주며, 실제 핵심 구현(커널, 트랜스포머 등) 은 포함되어 있지 않음
- Claude에게 C/C++로 추론을 재구현하도록 지시하고 MIT 라이선스를 붙인다면 정말 대단할 것임
  단, 실제로 정상 작동해야 의미가 있음
나는 C를 잘 모르고 주로 SQL 기반 분석을 하는데, 이 코드가 프로덕션급인지 궁금함
LLM이 만든 코드는 유지보수하기 어렵다는 말을 자주 들었음
- 코드를 훑어보니 아마추어 수준은 아니고, 기업용 수준은 아니지만 꽤 괜찮음
- 그런 평가는 구식임. Opus 4.5와 CLAUDE.md의 명확한 규칙을 함께 쓰면 꽤 관용적이고 깔끔한 코드가 나옴
  데이터 사이언스 작업에서는 성능이 들쭉날쭉하지만, 문제 정의와 입력 정보를 명확히 주면 좋은 결과를 얻을 수 있음