CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행
(theopenreader.org)- 대형 강입자 충돌기에서 발생하는 방대한 데이터를 실리콘 칩에 직접 구현된 초소형 AI 모델로 실시간 필터링해 과학적으로 의미 있는 사건만 선별함
- 초당 수백 테라바이트의 데이터 스트림을 처리하기 위해 GPU나 TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, 나노초 단위의 지연 시간으로 판단 수행
- HLS4ML 툴을 통해 PyTorch나 TensorFlow 모델을 합성 가능한 C++ 코드로 변환해 칩에 직접 배포, 룩업 테이블 기반 구조로 부동소수점 연산 없이 즉시 출력 생성
- LHC의 Level-1 Trigger는 약 1,000개의 FPGA로 구성되어 50나노초 이내에 데이터를 평가하고, 이후 단계에서는 25,600개의 CPU와 400개의 GPU가 추가 필터링 수행
- CERN은 2031년 High-Luminosity LHC 업그레이드를 대비해 차세대 초소형 AI 모델을 개발 중이며, 이 접근은 자율 시스템·의료 영상 등 초저지연 응용 분야로 확장 가능성 있음
개요
-
CERN은 초소형 인공지능 모델을 실리콘 칩에 직접 구현하여 대형 강입자 충돌기(LHC) 에서 발생하는 방대한 데이터를 실시간으로 필터링함
- 충돌 데이터 중 과학적으로 의미 있는 사건만을 선택하고 나머지는 즉시 폐기함
- 초당 수백 테라바이트에 달하는 데이터 스트림을 처리하기 위해 GPU나 TPU 대신 FPGA와 ASIC 기반의 맞춤형 하드웨어를 사용함
- 이러한 하드웨어 내장형 AI 모델은 검출기 수준에서 마이크로초~나노초 단위의 지연 시간으로 판단을 수행함
- 실시간 선택 과정은 현대 과학에서 가장 높은 계산 요구를 가지는 작업 중 하나로 평가됨
데이터 처리 과제
- LHC는 연간 약 40,000 엑사바이트의 원시 데이터를 생성하며, 이는 현재 인터넷 전체의 약 4분의 1에 해당하는 규모임
- 프로톤 다발이 27km 링 내부를 빛의 속도에 가깝게 이동하며 25나노초마다 교차함
- 실제 충돌은 드물지만, 한 번의 충돌마다 수 메가바이트의 데이터가 발생함
- 전체 데이터를 저장하거나 처리하는 것은 불가능하므로, 약 0.02%의 사건만이 보존됨
- 첫 번째 필터링 단계인 Level-1 Trigger는 약 1,000개의 FPGA로 구성되어 있으며, 50나노초 이내에 데이터를 평가함
- AXOL1TL 알고리듬이 이 칩 위에서 직접 실행되어, 과학적으로 유망한 사건을 식별하고 나머지는 즉시 폐기함
AI 접근 방식과 기술 스택
- CERN의 AI 모델은 초소형·고효율 구조로 설계되어, 일반 산업용 대규모 모델과 달리 검출기 수준의 초저지연 추론에 최적화됨
- 모델은 HLS4ML 오픈소스 툴을 통해 PyTorch나 TensorFlow 기반 모델을 합성 가능한 C++ 코드로 변환함
- 변환된 코드는 FPGA, SoC, ASIC에 직접 배포되어 GPU나 TPU보다 훨씬 적은 전력과 실리콘 면적으로 동작함
- 칩 자원의 상당 부분은 신경망 계층 대신 사전 계산된 룩업 테이블(lookup table) 구현에 사용됨
- 이 테이블은 일반적인 입력 패턴의 결과를 미리 저장해, 대부분의 검출기 신호에 대해 부동소수점 연산 없이 즉시 출력을 생성함
- 이러한 하드웨어 우선 설계 철학이 나노초 단위의 지연 시간 달성을 가능하게 함
- 두 번째 필터링 단계인 High-Level Trigger는 25,600개의 CPU와 400개의 GPU로 구성된 컴퓨팅 팜에서 실행됨
- Level-1 Trigger 이후에도 초당 수 테라바이트의 데이터를 처리하며, 하루 약 1페타바이트의 과학적 데이터로 압축함
향후 계획
- LHC는 2031년 가동 예정인 High-Luminosity LHC(HL-LHC) 업그레이드를 준비 중임
- 충돌당 데이터량이 현재보다 약 10배 증가할 예정이며, 사건 크기도 훨씬 커질 전망임
- CERN은 이를 대비해 차세대 초소형 AI 모델과 FPGA·ASIC 구현 최적화를 진행 중임
- 실시간 트리거 시스템 전체를 강화해, 훨씬 높은 데이터율에서도 초저지연 성능을 유지하도록 설계함
- 이러한 준비는 향후 수십 년간 입자물리학의 새로운 발견을 지속적으로 가능하게 하는 핵심 기반으로 간주됨
의미와 파급효과
- 전 세계 AI 산업이 대규모 모델 확장에 집중하는 반면, CERN은 가장 작고 빠르며 효율적인 AI 모델을 개발 중임
- 이 모델들은 FPGA와 ASIC에 직접 구현되어, “Tiny AI”의 실제 적용 사례로 평가됨
- LHC 트리거 시스템에서 이 모델들은 일반 AI 가속기로는 불가능한 수준의 성능을 달성함
- 나노초 단위의 의사결정이 필요한 극한 환경에서 최소 자원으로 최대 효율을 실현함
- 이러한 접근은 입자물리학을 넘어, 자율 시스템·고빈도 거래·의료 영상·항공우주 등 초저지연 실시간 추론이 필요한 분야에도 응용 가능성 있음
- 에너지 효율성과 계산 자원 절감이 중요해지는 시대에, CERN의 모델은 대규모화 대신 극단적 특화와 하드웨어 수준 최적화의 대안을 제시함
Hacker News 의견들
-
내가 이 논문의 두 모델 중 하나의 저자임
오해가 있어 정리하자면, 이 모델들은 실리콘에 직접 새겨진 게 아니라 FPGA 위에 배치된 것임
axol1tl의 경우 가중치가 fabric에 하드와이어드되어 있지만, 여전히 재프로그래밍 가능함
CERN의 smartpixel이나 HG-Cal readout 같은 프로젝트는 실제 실리콘 타깃으로 진행 중임
관련 슬라이드: CERN 발표 자료
논문 승인 절차가 길지만, 몇 달 내에 더 포괄적인 버전이 나올 예정임
모델은 초기에는 단순한 VAE 기반 MLP였고, v5부터는 VICREG 블록을 추가해 40MHz에서 2클럭 내에 동작함
이후 hls4ml-da4ml, 관련 논문을 통해 FPGA에 배치함
CICADA 모델은 VAE를 기반으로, 교사-학생 구조로 이상 탐지 점수를 지도 학습으로 증류함
참고 슬라이드: CICADA 발표자료
내 연구는 QAT(고정밀 양자화 학습)과 분산 산술 기반 NN 배포에 초점을 맞추고 있음
관련 논문: arXiv:2405.00645, arXiv:2507.04535- 정말 흥미로운 작업임
나도 박사 초기에 GNN 가속기를 FPGA로 구현했었고, CERN/Fermilab 쪽과 협업한 적이 있음
지금은 HLS와 EDA 관련 연구로 방향을 바꿨는데, 요즘 트리거 시스템을 하드웨어로 구현할 때의 주요 한계가 궁금함
상용 HLS 툴의 버그나 디버깅 난이도, 긴 빌드 시간 등이 큰 제약처럼 느껴짐
이런 이유로 EDA 툴링이 병목이 되는지, 아니면 다른 기술적 요인이 더 큰지 알고 싶음
- 정말 흥미로운 작업임
-
이들은 컨볼루션 레이어가 포함된 오토인코더 기반 신경망을 사용했고, 이전 실험 데이터를 학습시켰음
관련 논문
어떤 AI 알고리즘을 썼는지 명확히 설명했다면 훨씬 좋은 기사였을 것 같음- 요즘은 “AI 모델”이 사실상 선형 회귀를 의미하는 경우도 많음
- 구현 대부분이 FPGA 기반이라 “실리콘에 새겨졌다”는 표현은 과장된 느낌임
- LLM이 아니면 주목받지 못하는 분위기라, “AI”라는 단어가 마케팅 수단처럼 쓰이는 게 아쉬움
- 기술 기사에서 핵심 알고리즘을 생략하는 건 정말 답답함
- 결국 이상 탐지(anomaly detection) 문제였다는 걸 알고 나니 이해가 쉬워짐
-
사실 현대 CPU의 분기 예측기(branch predictor) 도 퍼셉트론을 사용함
- 예시로 삼성 Galaxy S7 칩 내부 NN 기사와 IEEE 논문을 참고할 수 있음
- 이런 구조가 있다는 걸 몰랐는데, 어떻게 설계하고 학습시키는지 더 알고 싶음
- 요즘 “AI”는 “문제를 몰라서 그냥 블랙박스를 던졌다”는 뜻처럼 쓰이는 게 아쉬움
- 퍼셉트론은 결국 선형 예측기라서 단순함
- HEP 분야는 이미 수십 년 전부터 L0 트리거에 FPGA를 써왔음
Delphi 시절에도 Higgs 선택용 ANN 논문이 있었고, 이런 시도가 LHC로 이어졌음
-
관련 영상 공유함
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk 페이지 -
이 프로젝트는 40MHz에서 동작하지만, 내가 만든 CflexHDL 툴은 148MHz에서 실시간 레이트레이싱을 구현함
시연 영상
이 툴은 Nlnet Foundation의 지원을 받고 있으며 CERN AI 툴과의 통합도 계획 중임
오픈소스 툴체인의 중요성을 강조하고 싶음 -
기사에 약간의 AI 과장이 있음
사실상 머신러닝으로 얻은 하드코딩 로직이 들어간 칩이라 볼 수 있음- ML은 본래 AI의 일부이며, ChatGPT 이후에 생긴 개념이 아님
- LLM의 가중치도 결국 학습된 논리를 담고 있음
- “AI”라는 표현은 마케팅용으로 들림
실제로는 추론 전용 상태기계에 가깝고, 환경이 바뀌면 재학습이 아니라 하드웨어 리스핀이 필요함
이런 상황에서는 “AI”라는 단어가 단순한 수식어가 아님을 실감하게 됨
-
흥미로운 점은, 보통의 AI와 반대로 모델이 하드웨어 제약을 견뎌야 존재 이유를 증명해야 한다는 것임
이런 환경에서는 지연(latency) 뿐 아니라 결정성, 전력 예산, 극단적 부하에서의 안정성이 더 중요함 -
“FPGAs가 실리콘에 새겨졌다”는 표현이 이상하게 들림
CERN이 ASIC을 테이프아웃한다면 놀라운 일일 것임- 실제로 CERN은 다른 용도의 커스텀 ASIC을 설계함
관련 발표자료 - 혹시 외부 업체에 위탁 제작했을 수도 있음
- 결국 기사 제목이 수정된 듯함
- 실제로 CERN은 다른 용도의 커스텀 ASIC을 설계함
-
이건 요즘 말하는 LLM이 아니라, FPGA에 구현된 신경망임
- LLM 기업들의 마케팅이 워낙 강해서, 처음엔 나도 그쪽을 떠올렸음
- FPGA라면 “실리콘에 새겨졌다”는 표현은 부정확함
ASIC이 이 경우에 적합할지는 의문임
-
피드백에 감사함
기사 내용을 VAE 기반 AXOL1TL 구조로 수정하고, 관련 arXiv 논문과 Thea Aarrestad의 발표 영상을 추가했음- 다만 “CERN이 GPU/TPU 기반 AI를 버렸다”는 문장은 사실과 다름
CERN은 여전히 GPU를 광범위하게 사용하고 있으며, 상황에 따라 COTS GPU/CPU를 적극 활용함
- 다만 “CERN이 GPU/TPU 기반 AI를 버렸다”는 문장은 사실과 다름