ML 엔지니어링 온라인 서적

▲

GN⁺ 2024-01-25 | parent | ★ favorite | on: ML 엔지니어링 온라인 서적(github.com/stas00)

Hacker News 의견

이 글은 정말 가치 있다. 연구를 지원하기 위해 LLM 트레이닝 설정을 디버깅하는 일을 하고 있는데, 시작할 때 이런 노트가 있었다면 좋았을 것이다.
- LLM 트레이닝 설정 디버깅에 종사하는 사람이 초기에 이런 정보를 가졌더라면 유용했을 것임을 표현함.
저는 Applied Scientist와 함께 일하면서 모델 트레이닝과 배포와 관련된 작업을 돕고 있습니다; 저 같은 사람은 최적화, 성능 등과 같은 더 낮은 수준의 엔지니어링 작업에 어떻게 노출될 수 있을까요? 우리에게는 ML 인프라 팀이 있지만, 그들의 목표는 플랫폼 주변의 도구를 구축하는 것이지, 반드시 워크로드를 최적으로 실행하는 것은 아닙니다.
- 모델 트레이닝 및 배포를 지원하는 사람이 최적화와 성능 같은 저수준 엔지니어링 작업에 대한 경험을 얻고 싶어함을 나타냄.
이것을 실험해보고 싶은데, 제대로 된 GPU가 없어요. 여러분은 이것들을 어떻게 실행하나요?
- 적절한 GPU 없이는 실험을 시작하는 데 어려움을 겪고 있음을 표현함.
AI Battlefield 섹션의 "Unsolicited Advice"에 있는 모든 것에 대해 정말 감사합니다 [1]. AI 개발의 빠른 진전에 항상 허우적대는 것과 그로 인한 감정적 부담에 대한 매우 현실적인 관점입니다.
- AI 개발의 빠른 속도와 그로 인한 감정적 부담을 현실적으로 바라보는 "Unsolicited Advice"에 대한 감사함을 표현함.
Slurm이 얼마나 널리 사용되고 있나요?
- Slurm의 사용 범위에 대한 궁금증을 나타냄.
무작위로 클릭해서 repeatability에 대해 알아보았는데, 분산 트레이닝에서 이것이 어떻게 달성되는지 여전히 궁금합니다. 결정적 동기화가 일을 느리게 만들지 않나요? 하지만 적어도 몇몇 큰 회사에서는 그들의 트레이닝이 반복 가능하다고 들었습니다.
- 분산 트레이닝에서의 반복 가능성과 결정적 동기화가 성능에 미치는 영향에 대한 의문을 제기함.
직업이 없을 때 이런 것들에 대한 경험을 어떻게 쌓나요?
- 실제 직업 없이 관련 경험을 어떻게 쌓을 수 있는지에 대한 질문을 함.
어딘가에 pdf가 있나요? 빌드하는 방법은 있지만 실제 파일은 없는 것 같습니다.
- 관련 문서의 pdf 버전을 찾고 있음을 나타냄.