파이썬 30줄로 이해하는 'Automatic Differentiation'

(vmartin.fr)

3P by GN⁺ 2023-08-27 | ★ favorite | 댓글 1개

기사는 Python을 사용하여 자동 미분이라는 중요한 개념을 설명하며, 이는 신경망 훈련의 핵심 구성 요소입니다.
저자는 기계 학습 엔지니어로, Tensorflow와 Pytorch와 같은 라이브러리를 사용하며, 자동 미분을 수행하는 가장 간단한 코드를 작성하는 것을 목표로 합니다.
저자는 두 변수 x와 y 사이의 합을 수행하는 Python 코드를 작성하여 결과를 변수 z에 할당하는 것으로 시작합니다. 그러나 z는 사용된 변수를 추적하지 않아, x 또는 y의 값이 변경되면 z의 값을 자동으로 업데이트하는 것이 불가능합니다.
이를 해결하기 위해, 저자는 변수에 대한 기호 계산을 허용하는 Tensor 클래스를 소개합니다. 이 클래스에서 덧셈 연산이 재정의됩니다.
Tensor 클래스는 이진 트리를 사용하여 더욱 향상됩니다. 각 텐서는 다른 두 텐서와 그것을 생성한 연산을 포함할 수 있습니다. 이는 Children 튜플을 도입함으로써 이루어집니다.
저자는 계산 그래프를 실행하고 텐서의 실제 값을 계산하기 위해 Tensor 클래스에 forward 메소드를 추가합니다.
저자는 Tensor 클래스가 지원하는 기본 연산에 대한 미분을 추가함으로써 계산 그래프에 자동 미분을 도입합니다. grad 함수에 대한 재귀 호출은 계산 그래프를 순회하고 복잡한 함수를 간단한 함수의 조합으로 분해합니다.
Tensor 클래스는 뺄셈, 나눗셈, 지수, 부정 등의 추가 연산을 추가함으로써 더 복잡한 공식을 처리할 수 있도록 확장됩니다.
저자는 복잡한 공식을 생성하고 이를 유도함으로써 Tensor 클래스의 사용을 보여줍니다.
저자는 임의의 크기의 배열에 대한 연산 추가, 텐서 x에 의존하지 않는 노드에서의 순회 중지, 계산 반복을 피하기 위한 캐시 설정 등 Tensor 클래스에 대한 가능한 개선과 최적화를 제안하며 결론을 내립니다.
이 기사는 독자들이 신경망 최적화와 학습을 위한 자동 미분이 어떻게 수행되는지 이해하는 데 도움을 주는 것을 목표로 합니다.

▲

GN⁺ 2023-08-27 [-]

Hacker News 의견

독자들은 복잡한 개념을 이해하는 데 도움이 되는 간결하고 우아한 코드 시연을 평가한다.
본문의 자동 미분 설명은 그래프가 트리일 때만 다루므로 과도하게 단순화된 것으로 보인다, 더 복잡한 방향성 비순환 그래프는 다루지 않는다.
일부 독자들은 자동 미분을 매우 흥미롭게 생각하고, 이 개념에 대한 자신만의 소개를 작성했다.
한 독자는 Python 26줄로 구현한 자신만의 autodiff를 공유했다.
논의된 기법들은 "의존성 추적" 및 대규모 파라메트릭 3D 모델에서 계산을 줄이는 Knowledge Based Engineering 시스템에서 사용되는 것과 유사하다.
Andrej Karpathy가 autograd 엔진을 구축하는 비디오는 통찰력이 있어 추천되었다.
일부 독자들은 자동 미분이 반드시 연산 그래프를 구축하지 않고, 즉석에서 해당 값을 계산한다고 제안했다.
autodiff를 수치적 연쇄 법칙으로 설명하는 것이 명확하다는 제안이 있다.
클래스를 텐서라고 부르는 데 대한 근거에 대한 질문이 제기되었다.
구현의 단순성이 일부 독자들을 놀라게 했으며, 이로 인해 개념이 처음 생각했던 것보다 더 접근하기 쉬워졌다.
구현은 Haskell의 free monad와 비교되었으며, 이는 기사의 언어 간 관련성을 나타낸다.

답변달기