신경망: 제로에서 히어로까지

▲

GN⁺ 4달전 | parent | ★ favorite | on: 신경망: 제로에서 히어로까지(karpathy.ai)

Hacker News 의견들

올해 초 이 영상 시리즈를 전부 봤음
이전에도 딥러닝 관련 책, Coursera 강의, 대학 수업, fast.ai 코스 등 여러 자료를 접했지만, 실제 업무에서는 거의 쓰지 않음
그런데 이 시리즈는 지금까지 본 것 중 직관을 가장 잘 키워주는 콘텐츠였음. 불필요한 내용이 거의 없고, 지루하지 않음
지금은 누군가 DNN의 저수준 원리를 배우고 싶다고 하면 이걸 가장 먼저 추천함
- Karpathy의 설명 방식이 매우 직관적이지만, 때로는 너무 단순화되어 있음
  인접 분야에서 온 사람이라면 약간 느리게 느껴질 수도 있지만, 그래도 항상 흥미로움
Karpathy를 좋아함. 나와 같은 연구 계보 출신이라 그의 성취가 자랑스러움
나는 도시 교통 시스템 예측 모델을 만들기 위해 시공간 데이터 모델링을 연구 중임. ML 인프라도 직접 구축하고, 이를 실제 교통 이벤트 스트림에 배포하는 앱도 준비 중임
Deeplearning.ai와 skills.google에서 온라인 학습을 했는데, 전자는 다소 구식 느낌이었고 후자는 GPU·TPU 최적화 등 실무 감각을 잘 다뤄줌
하지만 나를 진짜 실무자로 만들어준 건 Keras 창시자 Francois Chollet의 『Deep Learning with Python』임. 이 책은 딥러닝의 70년 역사를 배경으로 개념을 명확히 풀어주며, GPT나 Diffusion 모델을 직접 구현할 수 있는 레시피까지 담고 있음
핵심 교훈은 “딥러닝은 과학이라기보다 예술”이라는 점임. 많은 연습이 필요하고, 결과를 완벽히 설명할 수는 없음
TensorFlow, PyTorch, Jax 예제 노트북도 포함되어 있음. 덕분에 지금은 논문 초록을 재현하고 모델을 프로덕션에 배포할 수 있을 정도로 자신감이 생김
- 네가 하는 프로젝트가 흥미로움. 공공 교통 분야에서 ML/AI가 어떻게 활용되는지, 그리고 에이전트 기반 모델과 비교했을 때 어떤 장점이 있는지 궁금함
나는 AI 비전공자이고, 20년 전 대학에서 들은 입문 강의도 다 잊음
이 자료를 다 보면 어느 정도 수준에 도달할 수 있을까?
직접 뭘 만들거나, 대화에 참여할 수 있을 정도일까? 아니면 단순히 개념만 이해하는 수준일까?
연구자들이 가진 한계와 차이점은 무엇인지 궁금함
- 이상한 질문 같음. 왜 필요한지 모른다면, 아마 필요하지 않을 것임. 20년 전 들었던 입문 강의처럼 될 가능성이 큼
비교는 어렵지만, 또 다른 선택지로 Hugging Face 학습 포털이 있음
나는 Deep RL Course를 듣고 있는데, 지금까지는 꽤 직관적임. 다만 수학 부분이 나오면 좀 고생할 듯함
- Karpathy 영상은 접근성이 매우 좋았음. 나는 CS 전공이지만 ML은 깊이 배우지 않았고, 행렬은 그래픽 개발용 4x4 정도만 다뤄봤음
  그래도 backprop과 tiny GPT 구현 과정을 이해할 수 있었음. Karpathy 강의는 기초 원리를 깨닫는 데 탁월함
  다만 라이브러리 실습은 거의 없어서, 네가 언급한 코스가 실무에는 더 적합할 수도 있음
- Hugging Face 코스를 몇 개 들었는데 다시 듣고 싶진 않음
  자동 채점 시스템이 너무 형식적이라, 답안을 맞추기 위해 문장을 억지로 써야 했음. 학습 효율이 떨어지고 시간 낭비였음
  반면 Karpathy 영상은 진짜 보석 같은 자료였음
좋은 자료이긴 하지만, 현실적으로 99.99%의 사람은 ChatGPT, Claude, Gemini 같은 기반 모델을 그냥 사용할 것임
그래서 이 학습이 직접적인 실무 역량으로 이어지진 않을 수도 있음
대신 Karpathy의 또 다른 영상 Deep Dive into LLMs like ChatGPT를 추천함
몇 년 전, NumPy로 신경망을 처음부터 구현하는 튜토리얼을 작성했음
Neural Network from Scratch in Python (NumPy)
약간의 홍보지만, 이 코스를 수강한 뒤 두 편의 글을 썼음
No local GPU? No problem – running Karpathy’s NanoGPT on Modal.com
Modal.com and NanoGPT continued – producing output using Tiktoken for bigger tokens
첫 번째 영상조차 이해하기 어려움. 필수 선행 지식 목록 같은 게 있을까?
- 수학적 배경을 깊이 배우고 싶다면 3Blue1Brown 영상이 좋음
  신경망의 기본 메커니즘이 어렵다면, 처음엔 대충 보고 나중에 다시 보는 걸 추천함. 두 번째 시청 때 훨씬 잘 이해됨
- Karpathy가 첫 영상으로 이걸 택한 건 조금 이상함
  영상은 autograd의 원리를 설명하는데, 이는 PyTorch가 내부적으로 미분을 자동 계산하는 방식임
  과거 TensorFlow나 Torch는 각 레이어의 미분 함수를 직접 정의해야 했지만, PyTorch는 실행 중의 Python 코드를 기록해 자동으로 그래프를 만들고 미분을 계산함
  이걸 이해하면 PyTorch가 내부적으로 어떻게 작동하는지 알 수 있음
  하지만 대부분의 사용자는 굳이 그 내부를 몰라도 모델을 잘 쓸 수 있음
  완전 초보라면 Andrew Ng의 Coursera Introduction to ML 코스를 추천함. 최신 버전은 모르지만, 그는 훌륭한 교육자임
cs231n과 이 강의를 모두 들어본 사람이 있을까?
cs231n은 최고의 수업 중 하나였는데, 이건 겹치는 부분이 많아 보여서 미뤄두고 있음. 아마 transformer 부분이 추가된 듯함
이 강의도 강력히 추천함
gradient descent와 정규화(normalization) 가 왜 작동하는지 직관적으로 이해하게 해주고, 학습 동역학까지 깊이 다룸
모델이 제대로 학습되고 있는지 판단하는 감각을 키워줌