CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행

(theopenreader.org)

8P by GN⁺ 1달전 | ★ favorite | 댓글 1개

대형 강입자 충돌기에서 발생하는 방대한 데이터를 실리콘 칩에 직접 구현된 초소형 AI 모델로 실시간 필터링해 과학적으로 의미 있는 사건만 선별함
초당 수백 테라바이트의 데이터 스트림을 처리하기 위해 GPU나 TPU 대신 FPGA·ASIC 기반 하드웨어를 사용하며, 나노초 단위의 지연 시간으로 판단 수행
HLS4ML 툴을 통해 PyTorch나 TensorFlow 모델을 합성 가능한 C++ 코드로 변환해 칩에 직접 배포, 룩업 테이블 기반 구조로 부동소수점 연산 없이 즉시 출력 생성
LHC의 Level-1 Trigger는 약 1,000개의 FPGA로 구성되어 50나노초 이내에 데이터를 평가하고, 이후 단계에서는 25,600개의 CPU와 400개의 GPU가 추가 필터링 수행
CERN은 2031년 High-Luminosity LHC 업그레이드를 대비해 차세대 초소형 AI 모델을 개발 중이며, 이 접근은 자율 시스템·의료 영상 등 초저지연 응용 분야로 확장 가능성 있음

개요

CERN은 초소형 인공지능 모델을 실리콘 칩에 직접 구현하여 대형 강입자 충돌기(LHC) 에서 발생하는 방대한 데이터를 실시간으로 필터링함
- 충돌 데이터 중 과학적으로 의미 있는 사건만을 선택하고 나머지는 즉시 폐기함
- 초당 수백 테라바이트에 달하는 데이터 스트림을 처리하기 위해 GPU나 TPU 대신 FPGA와 ASIC 기반의 맞춤형 하드웨어를 사용함
이러한 하드웨어 내장형 AI 모델은 검출기 수준에서 마이크로초~나노초 단위의 지연 시간으로 판단을 수행함
- 실시간 선택 과정은 현대 과학에서 가장 높은 계산 요구를 가지는 작업 중 하나로 평가됨

데이터 처리 과제

LHC는 연간 약 40,000 엑사바이트의 원시 데이터를 생성하며, 이는 현재 인터넷 전체의 약 4분의 1에 해당하는 규모임
- 프로톤 다발이 27km 링 내부를 빛의 속도에 가깝게 이동하며 25나노초마다 교차함
- 실제 충돌은 드물지만, 한 번의 충돌마다 수 메가바이트의 데이터가 발생함
전체 데이터를 저장하거나 처리하는 것은 불가능하므로, 약 0.02%의 사건만이 보존됨
- 첫 번째 필터링 단계인 Level-1 Trigger는 약 1,000개의 FPGA로 구성되어 있으며, 50나노초 이내에 데이터를 평가함
- AXOL1TL 알고리듬이 이 칩 위에서 직접 실행되어, 과학적으로 유망한 사건을 식별하고 나머지는 즉시 폐기함

AI 접근 방식과 기술 스택

CERN의 AI 모델은 초소형·고효율 구조로 설계되어, 일반 산업용 대규모 모델과 달리 검출기 수준의 초저지연 추론에 최적화됨
- 모델은 HLS4ML 오픈소스 툴을 통해 PyTorch나 TensorFlow 기반 모델을 합성 가능한 C++ 코드로 변환함
- 변환된 코드는 FPGA, SoC, ASIC에 직접 배포되어 GPU나 TPU보다 훨씬 적은 전력과 실리콘 면적으로 동작함
칩 자원의 상당 부분은 신경망 계층 대신 사전 계산된 룩업 테이블(lookup table) 구현에 사용됨
- 이 테이블은 일반적인 입력 패턴의 결과를 미리 저장해, 대부분의 검출기 신호에 대해 부동소수점 연산 없이 즉시 출력을 생성함
- 이러한 하드웨어 우선 설계 철학이 나노초 단위의 지연 시간 달성을 가능하게 함
두 번째 필터링 단계인 High-Level Trigger는 25,600개의 CPU와 400개의 GPU로 구성된 컴퓨팅 팜에서 실행됨
- Level-1 Trigger 이후에도 초당 수 테라바이트의 데이터를 처리하며, 하루 약 1페타바이트의 과학적 데이터로 압축함

향후 계획

LHC는 2031년 가동 예정인 High-Luminosity LHC(HL-LHC) 업그레이드를 준비 중임
- 충돌당 데이터량이 현재보다 약 10배 증가할 예정이며, 사건 크기도 훨씬 커질 전망임
CERN은 이를 대비해 차세대 초소형 AI 모델과 FPGA·ASIC 구현 최적화를 진행 중임
- 실시간 트리거 시스템 전체를 강화해, 훨씬 높은 데이터율에서도 초저지연 성능을 유지하도록 설계함
이러한 준비는 향후 수십 년간 입자물리학의 새로운 발견을 지속적으로 가능하게 하는 핵심 기반으로 간주됨

의미와 파급효과

전 세계 AI 산업이 대규모 모델 확장에 집중하는 반면, CERN은 가장 작고 빠르며 효율적인 AI 모델을 개발 중임
- 이 모델들은 FPGA와 ASIC에 직접 구현되어, “Tiny AI”의 실제 적용 사례로 평가됨
LHC 트리거 시스템에서 이 모델들은 일반 AI 가속기로는 불가능한 수준의 성능을 달성함
- 나노초 단위의 의사결정이 필요한 극한 환경에서 최소 자원으로 최대 효율을 실현함
이러한 접근은 입자물리학을 넘어, 자율 시스템·고빈도 거래·의료 영상·항공우주 등 초저지연 실시간 추론이 필요한 분야에도 응용 가능성 있음
- 에너지 효율성과 계산 자원 절감이 중요해지는 시대에, CERN의 모델은 대규모화 대신 극단적 특화와 하드웨어 수준 최적화의 대안을 제시함

▲

GN⁺ 1달전 [-]

Hacker News 의견들

내가 이 논문의 두 모델 중 하나의 저자임
오해가 있어 정리하자면, 이 모델들은 실리콘에 직접 새겨진 게 아니라 FPGA 위에 배치된 것임
axol1tl의 경우 가중치가 fabric에 하드와이어드되어 있지만, 여전히 재프로그래밍 가능함
CERN의 smartpixel이나 HG-Cal readout 같은 프로젝트는 실제 실리콘 타깃으로 진행 중임
관련 슬라이드: CERN 발표 자료
논문 승인 절차가 길지만, 몇 달 내에 더 포괄적인 버전이 나올 예정임
모델은 초기에는 단순한 VAE 기반 MLP였고, v5부터는 VICREG 블록을 추가해 40MHz에서 2클럭 내에 동작함
이후 hls4ml-da4ml, 관련 논문을 통해 FPGA에 배치함
CICADA 모델은 VAE를 기반으로, 교사-학생 구조로 이상 탐지 점수를 지도 학습으로 증류함
참고 슬라이드: CICADA 발표자료
내 연구는 QAT(고정밀 양자화 학습)과 분산 산술 기반 NN 배포에 초점을 맞추고 있음
관련 논문: arXiv:2405.00645, arXiv:2507.04535
- 정말 흥미로운 작업임
  나도 박사 초기에 GNN 가속기를 FPGA로 구현했었고, CERN/Fermilab 쪽과 협업한 적이 있음
  지금은 HLS와 EDA 관련 연구로 방향을 바꿨는데, 요즘 트리거 시스템을 하드웨어로 구현할 때의 주요 한계가 궁금함
  상용 HLS 툴의 버그나 디버깅 난이도, 긴 빌드 시간 등이 큰 제약처럼 느껴짐
  이런 이유로 EDA 툴링이 병목이 되는지, 아니면 다른 기술적 요인이 더 큰지 알고 싶음
이들은 컨볼루션 레이어가 포함된 오토인코더 기반 신경망을 사용했고, 이전 실험 데이터를 학습시켰음
관련 논문
어떤 AI 알고리즘을 썼는지 명확히 설명했다면 훨씬 좋은 기사였을 것 같음
- 요즘은 “AI 모델”이 사실상 선형 회귀를 의미하는 경우도 많음
- 구현 대부분이 FPGA 기반이라 “실리콘에 새겨졌다”는 표현은 과장된 느낌임
- LLM이 아니면 주목받지 못하는 분위기라, “AI”라는 단어가 마케팅 수단처럼 쓰이는 게 아쉬움
- 기술 기사에서 핵심 알고리즘을 생략하는 건 정말 답답함
- 결국 이상 탐지(anomaly detection) 문제였다는 걸 알고 나니 이해가 쉬워짐
사실 현대 CPU의 분기 예측기(branch predictor) 도 퍼셉트론을 사용함
- 예시로 삼성 Galaxy S7 칩 내부 NN 기사와 IEEE 논문을 참고할 수 있음
- 이런 구조가 있다는 걸 몰랐는데, 어떻게 설계하고 학습시키는지 더 알고 싶음
- 요즘 “AI”는 “문제를 몰라서 그냥 블랙박스를 던졌다”는 뜻처럼 쓰이는 게 아쉬움
- 퍼셉트론은 결국 선형 예측기라서 단순함
- HEP 분야는 이미 수십 년 전부터 L0 트리거에 FPGA를 써왔음
  Delphi 시절에도 Higgs 선택용 ANN 논문이 있었고, 이런 시도가 LHC로 이어졌음
관련 영상 공유함
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
ScyllaDB Tech Talk 페이지
이 프로젝트는 40MHz에서 동작하지만, 내가 만든 CflexHDL 툴은 148MHz에서 실시간 레이트레이싱을 구현함
시연 영상
이 툴은 Nlnet Foundation의 지원을 받고 있으며 CERN AI 툴과의 통합도 계획 중임
오픈소스 툴체인의 중요성을 강조하고 싶음
기사에 약간의 AI 과장이 있음
사실상 머신러닝으로 얻은 하드코딩 로직이 들어간 칩이라 볼 수 있음
- ML은 본래 AI의 일부이며, ChatGPT 이후에 생긴 개념이 아님
- LLM의 가중치도 결국 학습된 논리를 담고 있음
- “AI”라는 표현은 마케팅용으로 들림
  실제로는 추론 전용 상태기계에 가깝고, 환경이 바뀌면 재학습이 아니라 하드웨어 리스핀이 필요함
  이런 상황에서는 “AI”라는 단어가 단순한 수식어가 아님을 실감하게 됨
흥미로운 점은, 보통의 AI와 반대로 모델이 하드웨어 제약을 견뎌야 존재 이유를 증명해야 한다는 것임
이런 환경에서는 지연(latency) 뿐 아니라 결정성, 전력 예산, 극단적 부하에서의 안정성이 더 중요함
“FPGAs가 실리콘에 새겨졌다”는 표현이 이상하게 들림
CERN이 ASIC을 테이프아웃한다면 놀라운 일일 것임
- 실제로 CERN은 다른 용도의 커스텀 ASIC을 설계함
  관련 발표자료
- 혹시 외부 업체에 위탁 제작했을 수도 있음
- 결국 기사 제목이 수정된 듯함
이건 요즘 말하는 LLM이 아니라, FPGA에 구현된 신경망임
- LLM 기업들의 마케팅이 워낙 강해서, 처음엔 나도 그쪽을 떠올렸음
- FPGA라면 “실리콘에 새겨졌다”는 표현은 부정확함
  ASIC이 이 경우에 적합할지는 의문임
피드백에 감사함
기사 내용을 VAE 기반 AXOL1TL 구조로 수정하고, 관련 arXiv 논문과 Thea Aarrestad의 발표 영상을 추가했음
- 다만 “CERN이 GPU/TPU 기반 AI를 버렸다”는 문장은 사실과 다름
  CERN은 여전히 GPU를 광범위하게 사용하고 있으며, 상황에 따라 COTS GPU/CPU를 적극 활용함

답변달기

CERN, 초소형 AI 모델을 FPGA에 내장해 실시간 LHC 데이터 필터링 수행

개요

데이터 처리 과제

AI 접근 방식과 기술 스택

향후 계획

의미와 파급효과

함께 보면 좋은 글 β

Hacker News 의견들