CERN, 초소형 AI 모델을 FPGA에 내장해 실시간

▲

GN⁺ 1달전 | parent | ★ favorite | on: CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행(theopenreader.org)

Hacker News 의견들

내가 이 논문의 두 모델 중 하나의 저자임
오해가 있어 정리하자면, 이 모델들은 실리콘에 직접 새겨진 게 아니라 FPGA 위에 배치된 것임
axol1tl의 경우 가중치가 fabric에 하드와이어드되어 있지만, 여전히 재프로그래밍 가능함
CERN의 smartpixel이나 HG-Cal readout 같은 프로젝트는 실제 실리콘 타깃으로 진행 중임
관련 슬라이드: CERN 발표 자료
논문 승인 절차가 길지만, 몇 달 내에 더 포괄적인 버전이 나올 예정임
모델은 초기에는 단순한 VAE 기반 MLP였고, v5부터는 VICREG 블록을 추가해 40MHz에서 2클럭 내에 동작함
이후 hls4ml-da4ml, 관련 논문을 통해 FPGA에 배치함
CICADA 모델은 VAE를 기반으로, 교사-학생 구조로 이상 탐지 점수를 지도 학습으로 증류함
참고 슬라이드: CICADA 발표자료
내 연구는 QAT(고정밀 양자화 학습)과 분산 산술 기반 NN 배포에 초점을 맞추고 있음
관련 논문: arXiv:2405.00645, arXiv:2507.04535
- 정말 흥미로운 작업임
  나도 박사 초기에 GNN 가속기를 FPGA로 구현했었고, CERN/Fermilab 쪽과 협업한 적이 있음
  지금은 HLS와 EDA 관련 연구로 방향을 바꿨는데, 요즘 트리거 시스템을 하드웨어로 구현할 때의 주요 한계가 궁금함
  상용 HLS 툴의 버그나 디버깅 난이도, 긴 빌드 시간 등이 큰 제약처럼 느껴짐
  이런 이유로 EDA 툴링이 병목이 되는지, 아니면 다른 기술적 요인이 더 큰지 알고 싶음
이들은 컨볼루션 레이어가 포함된 오토인코더 기반 신경망을 사용했고, 이전 실험 데이터를 학습시켰음
관련 논문
어떤 AI 알고리즘을 썼는지 명확히 설명했다면 훨씬 좋은 기사였을 것 같음
- 요즘은 “AI 모델”이 사실상 선형 회귀를 의미하는 경우도 많음
- 구현 대부분이 FPGA 기반이라 “실리콘에 새겨졌다”는 표현은 과장된 느낌임
- LLM이 아니면 주목받지 못하는 분위기라, “AI”라는 단어가 마케팅 수단처럼 쓰이는 게 아쉬움
- 기술 기사에서 핵심 알고리즘을 생략하는 건 정말 답답함
- 결국 이상 탐지(anomaly detection) 문제였다는 걸 알고 나니 이해가 쉬워짐
사실 현대 CPU의 분기 예측기(branch predictor) 도 퍼셉트론을 사용함
- 예시로 삼성 Galaxy S7 칩 내부 NN 기사와 IEEE 논문을 참고할 수 있음
- 이런 구조가 있다는 걸 몰랐는데, 어떻게 설계하고 학습시키는지 더 알고 싶음
- 요즘 “AI”는 “문제를 몰라서 그냥 블랙박스를 던졌다”는 뜻처럼 쓰이는 게 아쉬움
- 퍼셉트론은 결국 선형 예측기라서 단순함
- HEP 분야는 이미 수십 년 전부터 L0 트리거에 FPGA를 써왔음
  Delphi 시절에도 Higgs 선택용 ANN 논문이 있었고, 이런 시도가 LHC로 이어졌음
관련 영상 공유함
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk 페이지
이 프로젝트는 40MHz에서 동작하지만, 내가 만든 CflexHDL 툴은 148MHz에서 실시간 레이트레이싱을 구현함
시연 영상
이 툴은 Nlnet Foundation의 지원을 받고 있으며 CERN AI 툴과의 통합도 계획 중임
오픈소스 툴체인의 중요성을 강조하고 싶음
기사에 약간의 AI 과장이 있음
사실상 머신러닝으로 얻은 하드코딩 로직이 들어간 칩이라 볼 수 있음
- ML은 본래 AI의 일부이며, ChatGPT 이후에 생긴 개념이 아님
- LLM의 가중치도 결국 학습된 논리를 담고 있음
- “AI”라는 표현은 마케팅용으로 들림
  실제로는 추론 전용 상태기계에 가깝고, 환경이 바뀌면 재학습이 아니라 하드웨어 리스핀이 필요함
  이런 상황에서는 “AI”라는 단어가 단순한 수식어가 아님을 실감하게 됨
흥미로운 점은, 보통의 AI와 반대로 모델이 하드웨어 제약을 견뎌야 존재 이유를 증명해야 한다는 것임
이런 환경에서는 지연(latency) 뿐 아니라 결정성, 전력 예산, 극단적 부하에서의 안정성이 더 중요함
“FPGAs가 실리콘에 새겨졌다”는 표현이 이상하게 들림
CERN이 ASIC을 테이프아웃한다면 놀라운 일일 것임
- 실제로 CERN은 다른 용도의 커스텀 ASIC을 설계함
  관련 발표자료
- 혹시 외부 업체에 위탁 제작했을 수도 있음
- 결국 기사 제목이 수정된 듯함
이건 요즘 말하는 LLM이 아니라, FPGA에 구현된 신경망임
- LLM 기업들의 마케팅이 워낙 강해서, 처음엔 나도 그쪽을 떠올렸음
- FPGA라면 “실리콘에 새겨졌다”는 표현은 부정확함
  ASIC이 이 경우에 적합할지는 의문임
피드백에 감사함
기사 내용을 VAE 기반 AXOL1TL 구조로 수정하고, 관련 arXiv 논문과 Thea Aarrestad의 발표 영상을 추가했음
- 다만 “CERN이 GPU/TPU 기반 AI를 버렸다”는 문장은 사실과 다름
  CERN은 여전히 GPU를 광범위하게 사용하고 있으며, 상황에 따라 COTS GPU/CPU를 적극 활용함