Andrej Karpathy의 "ChatGPT와 같은

▲

GN⁺ 2025-02-11 | parent | ★ favorite | on: Andrej Karpathy의 "ChatGPT와 같은 LLM 심층 분석" 영상 요약(anfalmushtaq.com)

Hacker News 의견

원본 비디오가 Hacker News의 첫 페이지에서 사라진 후에도 논의할 좋은 장소를 찾고 있는 중임
비디오를 보면서 몇 가지 궁금한 점이 생겼음
- 수학과 LLMs
  - Andrej가 LLM에 제시한 예시들이 왜 대부분 계산 문제인지 궁금함
  - LLM의 계산 능력이 강력하고 유용해지고 있지만, 기본적인 능력은 아니라고 생각함
  - LLM의 핵심 능력을 보여주는 프롬프트와 수학적 계산을 구분했으면 좋겠음
  - 수학적 능력에 대한 논의나 LLM이 수학을 수행하는 지혜에 대한 좋은 참고 자료가 있으면 좋겠음
- 메타
  - Andrej가 LLM이 다른 LLM을 훈련하고 평가하는 데 사용되는 상황을 간단히 언급했지만, 이에 대한 논의는 많지 않음
  - LLM을 사용하여 다른 LLM을 훈련/평가하는 것의 한계와 위험에 대해 더 알고 싶음
  - 초기 결과와 발전이 더 강력한 기술 개발로 즉시 피드백되는 것이 맨해튼 프로젝트와 원자 무기와 비슷하다고 느낌
Meta의 환각 문제 해결 접근 방식이 흥미로움
- 훈련 데이터의 일부를 추출하여 Llama 3로 사실적 질문을 생성함
- Llama 3가 답변을 생성하고 원본 데이터와 비교하여 점수를 매김
- 틀린 경우 모델이 틀린 답변을 인식하고 거부하도록 훈련함
- 이는 ML 엔지니어의 자연스러운 경향과 반대되며, 모델이 모르는 것을 인식하도록 가르치는 것이 중요함
Andrej의 비디오가 훌륭하지만 RL 부분 설명이 약간 모호하게 느껴짐
- 올바른 답변에 대해 어떻게 훈련하는지 궁금함
- 추론 과정을 수집하여 지도 학습처럼 훈련하는지, 아니면 점수를 계산하여 손실 함수로 사용하는지 궁금함
- 보상이 매우 희소할 수 있으며, 문제가 너무 어려워 LLM이 올바른 답변을 생성할 수 없는 경우 어떻게 되는지 궁금함
- 매개변수 업데이트가 순차적인데 LLM 훈련을 어떻게 병렬화할 수 있는지 궁금함
모델이 '완전히' 오픈 소스가 되려면 모델 자체와 실행 방법 외에도 데이터를 훈련할 수 있는 프로그램이 필요함
- OSI의 오픈 소스 AI 정의를 참조할 것
LLM에 대한 많은 기사를 읽었고 일반적으로 어떻게 작동하는지 이해하지만, 다른 모델이 SOTA 모델만큼 잘 작동하지 않는 이유가 항상 궁금함
- 현재 모델 아키텍처의 역사와 이유가 궁금함
오늘 좋은 스레드를 봤음: [링크]
그의 LLC in C가 그의 강좌를 위한 발판에 불과했다는 것이 아쉬움
아마도 정말 훌륭한 강의의 훌륭한 요약임
- 원본을 따라가려고 고민 중임
비디오를 보지 않았지만 TL;DR의 토큰화 부분에 대해 궁금했음
- 링크된 기사에서 토큰화된 텍스트를 보면 "I View"가 아니라 실제로는 파이프 "|"임
- @miletus가 Hacker News 댓글에 게시한 링크의 3단계에서 토큰화된 텍스트는 "|Viewing Single (Post From) . . ."임
- 대문자 사용(View, Single)이 문장의 이 부분을 볼 때 더 의미가 있음