AI 연구자의 에너지 절감법: 되감기 방식으로 돌아가기

▲

GN⁺ 11달전 | parent | ★ favorite | on: AI 연구자의 에너지 절감법: 되감기 방식으로 돌아가기(quantamagazine.org)

Hacker News 의견

Stephen Baxter의 소설 Time에서는 아주 먼 미래, 모든 별이 소멸하고 블랙홀이 전부 증발한 뒤 인류의 후손이 최대 엔트로피 우주에 남게 되는 이야기 전개, 자유 에너지가 완전히 소진된 상태에서 이 후손들이 거대 시뮬레이션 안에서 가역적 연산(에너지 소모 없이 동작)만으로 똑같은 사건을 반복하면서 살아가는 컨셉 등장, 연산 결과를 uncompute하고 다시 compute하는 식으로 동일한 이벤트 루프 반복
소프트웨어 엔지니어 입장에서 이 내용이 이해하기 쉽지 않은 부분 언급, 정보를 삭제할 때 전자가 소실된다는 개념이 처음 나와 혼란, 전자는 모든 곳에서 소실되며, 대부분의 게이트가 전류의 부정으로 동작하니 이런 행위들이 다 나쁜 건지 질문, 메모리 변화를 모두 기록하면 왜 열 손실을 막을 수 있는지 의문 제기, 모든 메모리를 계속 유지해야 하는 상황에서 그게 에너지를 더 소모하지 않을지 고민, 그리고 굳이 연산에서 과거로 되돌아갈 필요가 왜 필요한지에 대한 실용성 의문
- 이론적으로 정보를 잊지 않는 컴퓨터는 전력을 거의 쓰지 않고, 따라서 열도 발생하지 않는 컴퓨터 구현 가능, 이런 종류의 컴퓨터는 가역(adiabatic) 컴퓨팅으로, 모든 연산 게이트가 되돌릴 수 있어야 함, 입력 상태 설정과 출력 복사 등 극초기 및 최종 단계에서는 여전히 에너지 필요, 실제 현실에서는 대부분의 전력 소모가 로직 게이트에서 정보 "삭제" 때문에 아니라 배선 저항과 같은 쪽에서 손실, 완전한 가역 CPU 만들려면 초전도 배선/소자 등 특수 하드웨어 필요, 또한 연산을 되돌려야 하는데 그것도 쉽지 않은 문제, 아니면 아예 상태를 지우면서 에너지 소비 감수, 현실 사례로 양자컴퓨터를 들 수 있으며, 양자 논리 게이트는 모든 연산이 가역적이고 역방향 수행 가능
- 열역학 입장에서 가역적 프로세스가 이론적으로 효율 최대라는 점, 이는 엔트로피와 관련, 정보를 지우면 가역적이 아니게 되므로 열 발생 불가피, 다만 이 모든 것은 철저히 이론적이고 현실 컴퓨터는 이 한계에 전혀 미치지 못하는 수준, 실제 논리 소자들은 AND, OR, NAND 등 대부분 고립되면 비가역적 연산 구조
- 하드디스크, SSD와 같은 영구 저장장치는 데이터 유지를 위해 전력을 전혀 소모하지 않으므로 열도 발생하지 않음 지적, 데이터를 지우거나 덮어쓰기 할 때 필연적으로 에너지 필요, 이 과정에서 많은 열 발생, 열 발산 문제가 더 미세한 칩 스케일링의 장애 요소임을 언급, 정보를 지우지 않는 컴퓨터를 설계할 수 있으면 열 발생이 대폭 줄고 이로 인해 칩 성능 ↑, 전력 절감 및 스케일링에 가능성 열림
에너지 절감이라는 동기에는 다소 회의적, 하지만 가역적인 딥러닝 아키텍처를 구현하는 자체가 꽤 흥미로운 연구 주제, 실제로 2019~2021년 invertibleworkshop 시리즈 등에서 활발히 논의, 최근 유행하는 diffusion 모델도 연속적인 normalizing flow의 특수 사례로 볼 수 있어 이론적으로는 계산이 가역적, 실제로 프로덕션에 쓰는 distill된 모델들은 거의 그렇지 않다고 생각, 미분방정식 시뮬레이션도 부동소수점 반올림 오차 때문에 실제로는 역방향 계산이 정확히 일치하기 어렵지만, 정교하게 만들면 bit-to-bit로 완벽하게 가역적 시뮬레이션도 가능
- 머신러닝에서 계산을 정확히 되돌릴 수 있으면 쓸모 있었던 2015년도 논문도 있음
연산에 방향성이 있다는 게 무슨 의미일지 고민, 인과관계처럼 보이나 실제론 입력과 출력의 문제로 보임, 결국 프로그램을 먼저 실행해봐야 가능할 것 같고, 상태를 저장해두면 백트래킹만 쉬워지는 정도로만 느껴짐
- 예, 그런데 물리적 레벨에서 말하는 것이므로 별도의 하드웨어 필요, 정보 삭제(예: AND 연산)는 열을 발생시키기 때문에 Fredkin 게이트 등 별개 논리 게이트 필요
- 사실 모든 계산은 방향성이 있음, 이 주제에 매우 흥미를 느끼는 입장, 예를 들어 함수 f(x) -> y 자체가 방향 제시, 역방향이 당연히 가능하면 좋지만 인버스 불가능한 경우도 상존. 가령 f(x)=mx+b는 쉽게 역함수 구함(단 m=0 아님), 반대로 f(x)=x^2이면 f(x)에서 x 값을 복구할 때 ±x 모두 해당되어 유일하지 않음, 함수 이미지와 프리이미지 개념 적용 가능, 이는 P=NP 문제와도 밀접관련, 머신러닝에서는 Normalizing Flow가 인버터블, diffusion model은 리버서블 구조, GAN-Inversion 등 ML 커뮤니티에서 "inverse problem" 용어 쓰는 것에 개인적으로 불만, 이 개념 자체를 이해하면 왜 예측은 한쪽 방향만 정확하고 역은 실패하는지 알게 됨, 결국 이것이 인과추론 문제로 귀결, 물리학에서 방정식을 변형해 인과지도를 만드는 게 주요 목표지만, 엔트로피/양자역학 등에서 고유의 난제가 발생, 예시로 기체분자 상태 계산을 역산하면 유일한 해가 아닌 여러 상태가 나옴, 미분 적분 예시처럼 differentiation은 가역적이지 않으며 f(x)+C 모두가 동일 미분 값을 제공, 즉 단방향 정보 손실 발생, 여러 시점 상태를 샘플링하면 솔루션 공간이 확 줄어들기도
- 결론적으로는 비가역 연산(정보 삭제)이 최소화되면 가역적 연산 가능, 예시: 2 + 2 + 2 처럼 여러 연산이 모두 기록되면 가역적, 하지만 마지막 결과만 남기고 이력 삭제 시(6만 남음) 비가역
Mike P Frank를 트위터에서 계속 팔로우하며 reversible computing 및 AI에 대한 흥미로운 발언 자주 접함 MikePFrank 트위터
이번 기술이 GPU 데이터센터 기반 소프트웨어 트렌드가 다시 돌아올 때 유용할 수 있길 바라지만, Jevons Paradox(효율이 개선되면 수요가 증가하여 실질적 에너지 절감에 실패함)처럼 결국 전환점이 안 될 가능성이 높을 거라 봄
구체적인 계획이 뭔지, 실제로 reversible matmul이 시연된 사례가 있는지 궁금증, 그 연산조차도 중간 과정에서 쉽게 정보 삭제가 불가피한데 현실성 의문
- 가역적인 행렬에 대해선 reversible matmul 존재, 하지만 ReLU 처럼 비가역적인 연산자에는 불가, 그리고 기사에서 주장처럼 단순히 거꾸로 연산하면 에너지를 덜 쓸 수 있는지도 잘 이해 안 됨
기사 헤드라인을 보는데, 해당 웹페이지가 최신 컴퓨터에서만 해도 12초 걸린다는 점에 아이러니 느낀 경험, 사람들은 대체로 남의 문제엔 신경 안 쓰고, (AI 등)새로운 기술이 등장하면 환경, 개인의 일자리, 인프라, 저작권 침해, 사회 시스템 등 사회적 비용은 외부화되는 경향, 효율을 얻으면 결국 자기를 위해 더 많이 사용하게 되고, 타인에게 주는 피해를 줄이지 않는다는 씁쓸함
LLM을 여러 번 써도 전기 사용량이 전기포트로 물을 끓이는 것보다 적다는 사실이 여러 차례 입증된 바 있음