2P by neo 2023-08-27 | favorite | 댓글 1개
  • Yann LeCun 등이 1989년에 발표한 "Backpropagation Applied to Handwritten Zip Code Recognition" 논문의 역사적 중요성에 대한 기사, 이 논문은 역전파를 사용하여 신경망을 처음부터 끝까지 훈련시킨 가장 초기의 실제 응용 사례로 간주됩니다.
  • 저자는 PyTorch와 같은 현대 도구를 사용하여 논문의 작업을 재현하려고 시도했으며, 원래 네트워크는 Bottou와 LeCun 1988의 역전파 시뮬레이터 SN (나중에 Lush로 명명)을 사용하여 Lisp에서 구현되었다는 점을 언급했습니다.
  • 원래 네트워크는 SUN-4/260 워크스테이션에서 3일 동안 훈련되었지만, 저자가 MacBook Air (M1) CPU를 사용하여 재현한 것은 약 90초가 걸렸습니다.
  • 저자는 또한 Adam 최적화 도구를 사용하거나 데이터 증강 및 드롭아웃을 도입하고, tanh 활성화 함수를 ReLU로 교체하는 등의 현대 딥러닝 기법을 실험했으며, 이로 인해 오류율이 약 60% 감소했습니다.
  • 저자는 네트워크나 데이터셋의 크기를 확대함으로써 추가적인 향상을 이룰 수 있지만, 이는 계산 비용을 증가시키고 추론 지연을 야기할 수 있다고 제안합니다.
  • 지난 33년 동안 딥러닝의 진보를 되돌아보며, 저자는 기본 원칙은 동일하게 유지되었지만, 데이터셋과 모델의 규모는 크게 증가했으며, 모델을 훈련시키는 데 필요한 시간은 크게 줄었다고 지적합니다.
  • 저자는 2055년까지 신경망이 더욱 커질 것이며, 대부분의 응용 프로그램은 네트워크의 일부를 가볍게 미세 조정하거나, 프롬프트 엔지니어링, 또는 데이터나 모델을 더 작고 특수 목적의 추론 네트워크로 증류함으로써 달성될 것이라고 추측합니다.
Hacker News 의견
  • 이 기사는 지난 33년 동안 딥 뉴럴 네트워크의 진화를 논의하고 다음 33년에 대한 예측을 제시합니다.
  • 이 네트워크의 원래 훈련은 Sun 4/260 워크스테이션에서 3일 동안 이루어졌으며, 약 14400 와트시의 에너지를 소비했습니다. 오늘날, 동일한 훈련은 MacBook에서 90초 만에 이루어질 수 있으며, 단지 0.5 와트시를 사용하여 에너지 효율성이 거의 30000배 향상되었습니다.
  • 일부 독자들은 2055년에 대한 기사의 예측을 "메타-선형"이라고 비판하며, 이는 여전히 현재 날짜를 원점으로 하는 "월드라인 대칭"을 반영한다고 주장합니다. 그들은 예상치 못한 돌파구와 장애물이 많을 수 있는 충분히 큰 시간 프레임이라고 주장합니다.
  • 다음 33년 동안 더 많은 데이터와 더 많은 컴퓨팅 파워로 같은 일을 계속하는 것이 좋을지, 아니면 새로운 접근법을 탐색해야 할지에 대한 논쟁이 있습니다.
  • 일부 독자들은 다음 33년 동안 컴퓨팅의 확장 가능성에 의문을 제기하는 반면, 다른 일부는 그것이 과거처럼 확장될 필요가 없다고 주장합니다.
  • 이 기사는 기계 학습의 기본을 직접적이고 간단한 방식으로 탐색함으로써 많은 논문들이 새로운 복잡한 아키텍처에서 재현하기 어려운 성과로 페이지를 채우는 것과 대조적으로 칭찬받고 있습니다.
  • 독자들은 가장 근본적인 변화가 어떤 모델이 훈련되고 있는지에 있음을 지적하며, 작은 이미지에서 인간 종의 언어적, 시각적 커뮤니케이션으로 이동하고 있습니다.
  • 이 기사는 신경망에 대한 관심의 상승, 하락, 그리고 부활을 목격한 일부 독자들에게 향수를 불러일으킵니다.
  • 일부 독자들은 기술의 미래에 대해 흥분을 표현하는 반면, 다른 일부는 AI가 지배하는 세계에서 인간이 무의미해질 가능성에 대해 우려를 표현합니다.
  • 이 기사는 하드웨어의 발전이 AI의 진화에서 중요한 역할을 하는 것을 입증하며, 일부 독자들은 미래의 발전이 그렇게 극적이지 않을 수도 있다고 주장합니다.