AI 연구자의 에너지 절감법: 되감기 방식으로 돌아가기
(quantamagazine.org)- 되감기(리버서블) 컴퓨팅은 연산을 역방향으로 실행해 데이터 삭제 없이 에너지를 절약할 수 있는 이론적 방법으로, AI의 에너지 소비 문제를 해결할 대안으로 주목받고 있음
- 기존 컴퓨터는 정보 삭제 시 필연적으로 열(에너지)을 방출하며, 이는 물리적 한계(랜드아우어 원리)로 인해 피할 수 없음
- Uncomputation 개념은 연산 결과만 남기고 나머지는 연산을 거꾸로 되돌려 정보 손실 없이 처리하지만, 속도와 메모리 비용 등 실용적 한계가 존재함
- 최근 AI처럼 병렬 연산이 많은 작업에서 리버서블 칩을 느리게 여러 개 운영하면, 에너지 절감 효과가 큼이 실증적으로 밝혀짐
- 산업계와 연구진이 실제 상용 리버서블 칩 개발에 뛰어들며, AI의 에너지 효율성 혁신이 현실화될 가능성이 커지고 있음
컴퓨터 연산의 근본적인 에너지 소실
- 컴퓨터가 두 수를 더할 때, 예를 들어 2 + 2 = 4와 같이 두 입력에서 하나의 출력만 남기게 됨
- 이렇게 일부 정보가 사라져 연산이 비가역성을 띄게 되고, 이는 삭제된 정보가 열 에너지로 바뀌는 현상임
- 대부분의 컴퓨터는 이 방식으로 작동하므로, 근본적으로 항상 어느 정도의 정보 소실(열 발생) 이 불가피하게 발생함
Landauer의 가역 컴퓨팅 제안과 한계
- Landauer는 정보 삭제 없이 모든 연산 결과를 기록함으로써 에너지 소실을 줄이는 컴퓨팅을 생각했음
- 하지만 이런 컴퓨터는 현실적으로 메모리가 금방 가득 차 쓸 수 없으므로 실용성이 떨어지는 문제를 발견함
- Landauer는 결국 가역 컴퓨팅이 막다른 길이라고 판단했음
Bennett의 uncomputation(역연산) 아이디어
- IBM의 Charles Bennett는 1973년, 연산 결과만 저장하고, 나머지는 계산 과정을 역으로 실행(uncomputation)해서 지우는 방법을 제안함
- Hansel과 Gretel이 빵조각을 다시 주워가는 식의 비유처럼, 필요한 데이터만 남기고 정보 소실 없이 제거가 가능함
- 이 방식은 연산 시간이 2배 걸리는 단점이 있어 비효율적으로 여겨졌음
실용성을 높인 연구들의 등장
- Bennett는 1989년, 약간 더 많은 메모리를 쓰면 연산 시간을 크게 줄일 수 있음을 밝힘
- 이후 연구자들이 메모리·시간 최적화 방안 연구를 지속함
- 하지만 컴퓨터는 데이터 삭제 외에도 트랜지스터 연결 방식 자체의 비효율로 에너지가 소실되는 구조임
- 실질적인 에너지 절감형 가역 컴퓨터 제작을 위해서는 설계 단계부터 저열 손실 구조가 필요함
MIT의 프로토타입 칩과 산업계 반응
- 1990년대 MIT 엔지니어들이 회로 효율을 높인 프로토타입 칩을 제작함
- Frank는 박사과정생으로 참여하여 가역 컴퓨팅 대표 학자로 활동함
- 그러나 기존 칩 성능이 빠르게 개선되던 산업 현실에서, 이론적 대안에 대한 산업계의 관심 부족으로 지원이 저조했음
- Frank도 한동안 연구를 접고 다른 길을 찾았음
- 하지만 회로가 미세화 한계에 다다르며 에너지 효율 문제에 대한 관심이 급증함
가역 컴퓨팅의 에너지 효율성과 AI 적용 가능성
- 2022년, Cambridge의 Hannah Earley가 가역 컴퓨터의 에너지 효율성을 정밀 분석함
- 가역 컴퓨터는 기존 대비 열 배출이 적으나, 완전한 무열은 불가능함
- 특히 가역 컴퓨터는 속도를 늦출수록 열 배출이 줄어드는 현상을 규명함
- AI 연산은 병렬처리 환경이므로, 각각의 칩을 느리게 돌리고 칩의 수를 늘릴수록 총 에너지 소모 감소 효과를 기대할 수 있음
- 느린 속도 덕분에 냉각비용도 줄여 칩 밀집 배치, 공간·소재 절약 효과 또한 기대 가능함
상용화 움직임과 전망
- 투자자들이 주목하기 시작하며, Earley와 Frank가 Vaire Computing을 창업, 상용 가역 칩 개발에 착수함
- 코펜하겐 대학의 Mogensen 등은 실제로 가역 프로세서가 현업에 적용되는 것에 큰 기대를 밝힘
- 수십 년간 이론에 머물렀던 가역 컴퓨팅이 AI와 에너지 효율 분야에서 실질적 혁신을 가져올지 주목받는 상황임
결론
- 리버서블 컴퓨팅은 정보 삭제 시 열 발생이라는 컴퓨터 물리적 한계를 극복할 수 있는 실질적 방법으로, AI 시대의 대규모 에너지 절감 기술로 주목받음
- 느리게, 병렬로 칩을 운영하는 방식이 AI 연산의 구조적 특성과 결합되어 실제 상용화가 임박
Hacker News 의견
-
Stephen Baxter의 소설 Time에서는 아주 먼 미래, 모든 별이 소멸하고 블랙홀이 전부 증발한 뒤 인류의 후손이 최대 엔트로피 우주에 남게 되는 이야기 전개, 자유 에너지가 완전히 소진된 상태에서 이 후손들이 거대 시뮬레이션 안에서 가역적 연산(에너지 소모 없이 동작)만으로 똑같은 사건을 반복하면서 살아가는 컨셉 등장, 연산 결과를 uncompute하고 다시 compute하는 식으로 동일한 이벤트 루프 반복
-
소프트웨어 엔지니어 입장에서 이 내용이 이해하기 쉽지 않은 부분 언급, 정보를 삭제할 때 전자가 소실된다는 개념이 처음 나와 혼란, 전자는 모든 곳에서 소실되며, 대부분의 게이트가 전류의 부정으로 동작하니 이런 행위들이 다 나쁜 건지 질문, 메모리 변화를 모두 기록하면 왜 열 손실을 막을 수 있는지 의문 제기, 모든 메모리를 계속 유지해야 하는 상황에서 그게 에너지를 더 소모하지 않을지 고민, 그리고 굳이 연산에서 과거로 되돌아갈 필요가 왜 필요한지에 대한 실용성 의문
-
이론적으로 정보를 잊지 않는 컴퓨터는 전력을 거의 쓰지 않고, 따라서 열도 발생하지 않는 컴퓨터 구현 가능, 이런 종류의 컴퓨터는 가역(adiabatic) 컴퓨팅으로, 모든 연산 게이트가 되돌릴 수 있어야 함, 입력 상태 설정과 출력 복사 등 극초기 및 최종 단계에서는 여전히 에너지 필요, 실제 현실에서는 대부분의 전력 소모가 로직 게이트에서 정보 "삭제" 때문에 아니라 배선 저항과 같은 쪽에서 손실, 완전한 가역 CPU 만들려면 초전도 배선/소자 등 특수 하드웨어 필요, 또한 연산을 되돌려야 하는데 그것도 쉽지 않은 문제, 아니면 아예 상태를 지우면서 에너지 소비 감수, 현실 사례로 양자컴퓨터를 들 수 있으며, 양자 논리 게이트는 모든 연산이 가역적이고 역방향 수행 가능
-
열역학 입장에서 가역적 프로세스가 이론적으로 효율 최대라는 점, 이는 엔트로피와 관련, 정보를 지우면 가역적이 아니게 되므로 열 발생 불가피, 다만 이 모든 것은 철저히 이론적이고 현실 컴퓨터는 이 한계에 전혀 미치지 못하는 수준, 실제 논리 소자들은 AND, OR, NAND 등 대부분 고립되면 비가역적 연산 구조
-
하드디스크, SSD와 같은 영구 저장장치는 데이터 유지를 위해 전력을 전혀 소모하지 않으므로 열도 발생하지 않음 지적, 데이터를 지우거나 덮어쓰기 할 때 필연적으로 에너지 필요, 이 과정에서 많은 열 발생, 열 발산 문제가 더 미세한 칩 스케일링의 장애 요소임을 언급, 정보를 지우지 않는 컴퓨터를 설계할 수 있으면 열 발생이 대폭 줄고 이로 인해 칩 성능 ↑, 전력 절감 및 스케일링에 가능성 열림
-
-
에너지 절감이라는 동기에는 다소 회의적, 하지만 가역적인 딥러닝 아키텍처를 구현하는 자체가 꽤 흥미로운 연구 주제, 실제로 2019~2021년 invertibleworkshop 시리즈 등에서 활발히 논의, 최근 유행하는 diffusion 모델도 연속적인 normalizing flow의 특수 사례로 볼 수 있어 이론적으로는 계산이 가역적, 실제로 프로덕션에 쓰는 distill된 모델들은 거의 그렇지 않다고 생각, 미분방정식 시뮬레이션도 부동소수점 반올림 오차 때문에 실제로는 역방향 계산이 정확히 일치하기 어렵지만, 정교하게 만들면 bit-to-bit로 완벽하게 가역적 시뮬레이션도 가능
- 머신러닝에서 계산을 정확히 되돌릴 수 있으면 쓸모 있었던 2015년도 논문도 있음
-
연산에 방향성이 있다는 게 무슨 의미일지 고민, 인과관계처럼 보이나 실제론 입력과 출력의 문제로 보임, 결국 프로그램을 먼저 실행해봐야 가능할 것 같고, 상태를 저장해두면 백트래킹만 쉬워지는 정도로만 느껴짐
-
예, 그런데 물리적 레벨에서 말하는 것이므로 별도의 하드웨어 필요, 정보 삭제(예: AND 연산)는 열을 발생시키기 때문에 Fredkin 게이트 등 별개 논리 게이트 필요
-
사실 모든 계산은 방향성이 있음, 이 주제에 매우 흥미를 느끼는 입장, 예를 들어 함수 f(x) -> y 자체가 방향 제시, 역방향이 당연히 가능하면 좋지만 인버스 불가능한 경우도 상존. 가령 f(x)=mx+b는 쉽게 역함수 구함(단 m=0 아님), 반대로 f(x)=x^2이면 f(x)에서 x 값을 복구할 때 ±x 모두 해당되어 유일하지 않음, 함수 이미지와 프리이미지 개념 적용 가능, 이는 P=NP 문제와도 밀접관련, 머신러닝에서는 Normalizing Flow가 인버터블, diffusion model은 리버서블 구조, GAN-Inversion 등 ML 커뮤니티에서 "inverse problem" 용어 쓰는 것에 개인적으로 불만, 이 개념 자체를 이해하면 왜 예측은 한쪽 방향만 정확하고 역은 실패하는지 알게 됨, 결국 이것이 인과추론 문제로 귀결, 물리학에서 방정식을 변형해 인과지도를 만드는 게 주요 목표지만, 엔트로피/양자역학 등에서 고유의 난제가 발생, 예시로 기체분자 상태 계산을 역산하면 유일한 해가 아닌 여러 상태가 나옴, 미분 적분 예시처럼 differentiation은 가역적이지 않으며 f(x)+C 모두가 동일 미분 값을 제공, 즉 단방향 정보 손실 발생, 여러 시점 상태를 샘플링하면 솔루션 공간이 확 줄어들기도
-
결론적으로는 비가역 연산(정보 삭제)이 최소화되면 가역적 연산 가능, 예시: 2 + 2 + 2 처럼 여러 연산이 모두 기록되면 가역적, 하지만 마지막 결과만 남기고 이력 삭제 시(6만 남음) 비가역
-
-
Mike P Frank를 트위터에서 계속 팔로우하며 reversible computing 및 AI에 대한 흥미로운 발언 자주 접함 MikePFrank 트위터
-
이번 기술이 GPU 데이터센터 기반 소프트웨어 트렌드가 다시 돌아올 때 유용할 수 있길 바라지만, Jevons Paradox(효율이 개선되면 수요가 증가하여 실질적 에너지 절감에 실패함)처럼 결국 전환점이 안 될 가능성이 높을 거라 봄
-
구체적인 계획이 뭔지, 실제로 reversible matmul이 시연된 사례가 있는지 궁금증, 그 연산조차도 중간 과정에서 쉽게 정보 삭제가 불가피한데 현실성 의문
- 가역적인 행렬에 대해선 reversible matmul 존재, 하지만 ReLU 처럼 비가역적인 연산자에는 불가, 그리고 기사에서 주장처럼 단순히 거꾸로 연산하면 에너지를 덜 쓸 수 있는지도 잘 이해 안 됨
-
기사 헤드라인을 보는데, 해당 웹페이지가 최신 컴퓨터에서만 해도 12초 걸린다는 점에 아이러니 느낀 경험, 사람들은 대체로 남의 문제엔 신경 안 쓰고, (AI 등)새로운 기술이 등장하면 환경, 개인의 일자리, 인프라, 저작권 침해, 사회 시스템 등 사회적 비용은 외부화되는 경향, 효율을 얻으면 결국 자기를 위해 더 많이 사용하게 되고, 타인에게 주는 피해를 줄이지 않는다는 씁쓸함
-
LLM을 여러 번 써도 전기 사용량이 전기포트로 물을 끓이는 것보다 적다는 사실이 여러 차례 입증된 바 있음