AI 연구자의 에너지 절감법: 되감기 방식으로 돌아가기

(quantamagazine.org)

4P by GN⁺ 5달전 | ★ favorite | 댓글 1개

되감기(리버서블) 컴퓨팅은 연산을 역방향으로 실행해 데이터 삭제 없이 에너지를 절약할 수 있는 이론적 방법으로, AI의 에너지 소비 문제를 해결할 대안으로 주목받고 있음
기존 컴퓨터는 정보 삭제 시 필연적으로 열(에너지)을 방출하며, 이는 물리적 한계(랜드아우어 원리)로 인해 피할 수 없음
Uncomputation 개념은 연산 결과만 남기고 나머지는 연산을 거꾸로 되돌려 정보 손실 없이 처리하지만, 속도와 메모리 비용 등 실용적 한계가 존재함
최근 AI처럼 병렬 연산이 많은 작업에서 리버서블 칩을 느리게 여러 개 운영하면, 에너지 절감 효과가 큼이 실증적으로 밝혀짐
산업계와 연구진이 실제 상용 리버서블 칩 개발에 뛰어들며, AI의 에너지 효율성 혁신이 현실화될 가능성이 커지고 있음

컴퓨터 연산의 근본적인 에너지 소실

컴퓨터가 두 수를 더할 때, 예를 들어 2 + 2 = 4와 같이 두 입력에서 하나의 출력만 남기게 됨
이렇게 일부 정보가 사라져 연산이 비가역성을 띄게 되고, 이는 삭제된 정보가 열 에너지로 바뀌는 현상임
대부분의 컴퓨터는 이 방식으로 작동하므로, 근본적으로 항상 어느 정도의 정보 소실(열 발생) 이 불가피하게 발생함

Landauer의 가역 컴퓨팅 제안과 한계

Landauer는 정보 삭제 없이 모든 연산 결과를 기록함으로써 에너지 소실을 줄이는 컴퓨팅을 생각했음
하지만 이런 컴퓨터는 현실적으로 메모리가 금방 가득 차 쓸 수 없으므로 실용성이 떨어지는 문제를 발견함
Landauer는 결국 가역 컴퓨팅이 막다른 길이라고 판단했음

Bennett의 uncomputation(역연산) 아이디어

IBM의 Charles Bennett는 1973년, 연산 결과만 저장하고, 나머지는 계산 과정을 역으로 실행(uncomputation)해서 지우는 방법을 제안함
Hansel과 Gretel이 빵조각을 다시 주워가는 식의 비유처럼, 필요한 데이터만 남기고 정보 소실 없이 제거가 가능함
이 방식은 연산 시간이 2배 걸리는 단점이 있어 비효율적으로 여겨졌음

실용성을 높인 연구들의 등장

Bennett는 1989년, 약간 더 많은 메모리를 쓰면 연산 시간을 크게 줄일 수 있음을 밝힘
이후 연구자들이 메모리·시간 최적화 방안 연구를 지속함
하지만 컴퓨터는 데이터 삭제 외에도 트랜지스터 연결 방식 자체의 비효율로 에너지가 소실되는 구조임
실질적인 에너지 절감형 가역 컴퓨터 제작을 위해서는 설계 단계부터 저열 손실 구조가 필요함

MIT의 프로토타입 칩과 산업계 반응

1990년대 MIT 엔지니어들이 회로 효율을 높인 프로토타입 칩을 제작함
Frank는 박사과정생으로 참여하여 가역 컴퓨팅 대표 학자로 활동함
그러나 기존 칩 성능이 빠르게 개선되던 산업 현실에서, 이론적 대안에 대한 산업계의 관심 부족으로 지원이 저조했음
Frank도 한동안 연구를 접고 다른 길을 찾았음
하지만 회로가 미세화 한계에 다다르며 에너지 효율 문제에 대한 관심이 급증함

가역 컴퓨팅의 에너지 효율성과 AI 적용 가능성

2022년, Cambridge의 Hannah Earley가 가역 컴퓨터의 에너지 효율성을 정밀 분석함
가역 컴퓨터는 기존 대비 열 배출이 적으나, 완전한 무열은 불가능함
특히 가역 컴퓨터는 속도를 늦출수록 열 배출이 줄어드는 현상을 규명함
AI 연산은 병렬처리 환경이므로, 각각의 칩을 느리게 돌리고 칩의 수를 늘릴수록 총 에너지 소모 감소 효과를 기대할 수 있음
느린 속도 덕분에 냉각비용도 줄여 칩 밀집 배치, 공간·소재 절약 효과 또한 기대 가능함

상용화 움직임과 전망

투자자들이 주목하기 시작하며, Earley와 Frank가 Vaire Computing을 창업, 상용 가역 칩 개발에 착수함
코펜하겐 대학의 Mogensen 등은 실제로 가역 프로세서가 현업에 적용되는 것에 큰 기대를 밝힘
수십 년간 이론에 머물렀던 가역 컴퓨팅이 AI와 에너지 효율 분야에서 실질적 혁신을 가져올지 주목받는 상황임

결론

리버서블 컴퓨팅은 정보 삭제 시 열 발생이라는 컴퓨터 물리적 한계를 극복할 수 있는 실질적 방법으로, AI 시대의 대규모 에너지 절감 기술로 주목받음
느리게, 병렬로 칩을 운영하는 방식이 AI 연산의 구조적 특성과 결합되어 실제 상용화가 임박

▲

GN⁺ 5달전 [-]

Hacker News 의견

Stephen Baxter의 소설 Time에서는 아주 먼 미래, 모든 별이 소멸하고 블랙홀이 전부 증발한 뒤 인류의 후손이 최대 엔트로피 우주에 남게 되는 이야기 전개, 자유 에너지가 완전히 소진된 상태에서 이 후손들이 거대 시뮬레이션 안에서 가역적 연산(에너지 소모 없이 동작)만으로 똑같은 사건을 반복하면서 살아가는 컨셉 등장, 연산 결과를 uncompute하고 다시 compute하는 식으로 동일한 이벤트 루프 반복
소프트웨어 엔지니어 입장에서 이 내용이 이해하기 쉽지 않은 부분 언급, 정보를 삭제할 때 전자가 소실된다는 개념이 처음 나와 혼란, 전자는 모든 곳에서 소실되며, 대부분의 게이트가 전류의 부정으로 동작하니 이런 행위들이 다 나쁜 건지 질문, 메모리 변화를 모두 기록하면 왜 열 손실을 막을 수 있는지 의문 제기, 모든 메모리를 계속 유지해야 하는 상황에서 그게 에너지를 더 소모하지 않을지 고민, 그리고 굳이 연산에서 과거로 되돌아갈 필요가 왜 필요한지에 대한 실용성 의문
- 이론적으로 정보를 잊지 않는 컴퓨터는 전력을 거의 쓰지 않고, 따라서 열도 발생하지 않는 컴퓨터 구현 가능, 이런 종류의 컴퓨터는 가역(adiabatic) 컴퓨팅으로, 모든 연산 게이트가 되돌릴 수 있어야 함, 입력 상태 설정과 출력 복사 등 극초기 및 최종 단계에서는 여전히 에너지 필요, 실제 현실에서는 대부분의 전력 소모가 로직 게이트에서 정보 "삭제" 때문에 아니라 배선 저항과 같은 쪽에서 손실, 완전한 가역 CPU 만들려면 초전도 배선/소자 등 특수 하드웨어 필요, 또한 연산을 되돌려야 하는데 그것도 쉽지 않은 문제, 아니면 아예 상태를 지우면서 에너지 소비 감수, 현실 사례로 양자컴퓨터를 들 수 있으며, 양자 논리 게이트는 모든 연산이 가역적이고 역방향 수행 가능
- 열역학 입장에서 가역적 프로세스가 이론적으로 효율 최대라는 점, 이는 엔트로피와 관련, 정보를 지우면 가역적이 아니게 되므로 열 발생 불가피, 다만 이 모든 것은 철저히 이론적이고 현실 컴퓨터는 이 한계에 전혀 미치지 못하는 수준, 실제 논리 소자들은 AND, OR, NAND 등 대부분 고립되면 비가역적 연산 구조
- 하드디스크, SSD와 같은 영구 저장장치는 데이터 유지를 위해 전력을 전혀 소모하지 않으므로 열도 발생하지 않음 지적, 데이터를 지우거나 덮어쓰기 할 때 필연적으로 에너지 필요, 이 과정에서 많은 열 발생, 열 발산 문제가 더 미세한 칩 스케일링의 장애 요소임을 언급, 정보를 지우지 않는 컴퓨터를 설계할 수 있으면 열 발생이 대폭 줄고 이로 인해 칩 성능 ↑, 전력 절감 및 스케일링에 가능성 열림
에너지 절감이라는 동기에는 다소 회의적, 하지만 가역적인 딥러닝 아키텍처를 구현하는 자체가 꽤 흥미로운 연구 주제, 실제로 2019~2021년 invertibleworkshop 시리즈 등에서 활발히 논의, 최근 유행하는 diffusion 모델도 연속적인 normalizing flow의 특수 사례로 볼 수 있어 이론적으로는 계산이 가역적, 실제로 프로덕션에 쓰는 distill된 모델들은 거의 그렇지 않다고 생각, 미분방정식 시뮬레이션도 부동소수점 반올림 오차 때문에 실제로는 역방향 계산이 정확히 일치하기 어렵지만, 정교하게 만들면 bit-to-bit로 완벽하게 가역적 시뮬레이션도 가능
- 머신러닝에서 계산을 정확히 되돌릴 수 있으면 쓸모 있었던 2015년도 논문도 있음
연산에 방향성이 있다는 게 무슨 의미일지 고민, 인과관계처럼 보이나 실제론 입력과 출력의 문제로 보임, 결국 프로그램을 먼저 실행해봐야 가능할 것 같고, 상태를 저장해두면 백트래킹만 쉬워지는 정도로만 느껴짐
- 예, 그런데 물리적 레벨에서 말하는 것이므로 별도의 하드웨어 필요, 정보 삭제(예: AND 연산)는 열을 발생시키기 때문에 Fredkin 게이트 등 별개 논리 게이트 필요
- 사실 모든 계산은 방향성이 있음, 이 주제에 매우 흥미를 느끼는 입장, 예를 들어 함수 f(x) -> y 자체가 방향 제시, 역방향이 당연히 가능하면 좋지만 인버스 불가능한 경우도 상존. 가령 f(x)=mx+b는 쉽게 역함수 구함(단 m=0 아님), 반대로 f(x)=x^2이면 f(x)에서 x 값을 복구할 때 ±x 모두 해당되어 유일하지 않음, 함수 이미지와 프리이미지 개념 적용 가능, 이는 P=NP 문제와도 밀접관련, 머신러닝에서는 Normalizing Flow가 인버터블, diffusion model은 리버서블 구조, GAN-Inversion 등 ML 커뮤니티에서 "inverse problem" 용어 쓰는 것에 개인적으로 불만, 이 개념 자체를 이해하면 왜 예측은 한쪽 방향만 정확하고 역은 실패하는지 알게 됨, 결국 이것이 인과추론 문제로 귀결, 물리학에서 방정식을 변형해 인과지도를 만드는 게 주요 목표지만, 엔트로피/양자역학 등에서 고유의 난제가 발생, 예시로 기체분자 상태 계산을 역산하면 유일한 해가 아닌 여러 상태가 나옴, 미분 적분 예시처럼 differentiation은 가역적이지 않으며 f(x)+C 모두가 동일 미분 값을 제공, 즉 단방향 정보 손실 발생, 여러 시점 상태를 샘플링하면 솔루션 공간이 확 줄어들기도
- 결론적으로는 비가역 연산(정보 삭제)이 최소화되면 가역적 연산 가능, 예시: 2 + 2 + 2 처럼 여러 연산이 모두 기록되면 가역적, 하지만 마지막 결과만 남기고 이력 삭제 시(6만 남음) 비가역
Mike P Frank를 트위터에서 계속 팔로우하며 reversible computing 및 AI에 대한 흥미로운 발언 자주 접함 MikePFrank 트위터
이번 기술이 GPU 데이터센터 기반 소프트웨어 트렌드가 다시 돌아올 때 유용할 수 있길 바라지만, Jevons Paradox(효율이 개선되면 수요가 증가하여 실질적 에너지 절감에 실패함)처럼 결국 전환점이 안 될 가능성이 높을 거라 봄
구체적인 계획이 뭔지, 실제로 reversible matmul이 시연된 사례가 있는지 궁금증, 그 연산조차도 중간 과정에서 쉽게 정보 삭제가 불가피한데 현실성 의문
- 가역적인 행렬에 대해선 reversible matmul 존재, 하지만 ReLU 처럼 비가역적인 연산자에는 불가, 그리고 기사에서 주장처럼 단순히 거꾸로 연산하면 에너지를 덜 쓸 수 있는지도 잘 이해 안 됨
기사 헤드라인을 보는데, 해당 웹페이지가 최신 컴퓨터에서만 해도 12초 걸린다는 점에 아이러니 느낀 경험, 사람들은 대체로 남의 문제엔 신경 안 쓰고, (AI 등)새로운 기술이 등장하면 환경, 개인의 일자리, 인프라, 저작권 침해, 사회 시스템 등 사회적 비용은 외부화되는 경향, 효율을 얻으면 결국 자기를 위해 더 많이 사용하게 되고, 타인에게 주는 피해를 줄이지 않는다는 씁쓸함
LLM을 여러 번 써도 전기 사용량이 전기포트로 물을 끓이는 것보다 적다는 사실이 여러 차례 입증된 바 있음

답변달기