이 글은 정말 가치 있다. 연구를 지원하기 위해 LLM 트레이닝 설정을 디버깅하는 일을 하고 있는데, 시작할 때 이런 노트가 있었다면 좋았을 것이다.
LLM 트레이닝 설정 디버깅에 종사하는 사람이 초기에 이런 정보를 가졌더라면 유용했을 것임을 표현함.
저는 Applied Scientist와 함께 일하면서 모델 트레이닝과 배포와 관련된 작업을 돕고 있습니다; 저 같은 사람은 최적화, 성능 등과 같은 더 낮은 수준의 엔지니어링 작업에 어떻게 노출될 수 있을까요? 우리에게는 ML 인프라 팀이 있지만, 그들의 목표는 플랫폼 주변의 도구를 구축하는 것이지, 반드시 워크로드를 최적으로 실행하는 것은 아닙니다.
모델 트레이닝 및 배포를 지원하는 사람이 최적화와 성능 같은 저수준 엔지니어링 작업에 대한 경험을 얻고 싶어함을 나타냄.
이것을 실험해보고 싶은데, 제대로 된 GPU가 없어요. 여러분은 이것들을 어떻게 실행하나요?
적절한 GPU 없이는 실험을 시작하는 데 어려움을 겪고 있음을 표현함.
AI Battlefield 섹션의 "Unsolicited Advice"에 있는 모든 것에 대해 정말 감사합니다 [1]. AI 개발의 빠른 진전에 항상 허우적대는 것과 그로 인한 감정적 부담에 대한 매우 현실적인 관점입니다.
AI 개발의 빠른 속도와 그로 인한 감정적 부담을 현실적으로 바라보는 "Unsolicited Advice"에 대한 감사함을 표현함.
Slurm이 얼마나 널리 사용되고 있나요?
Slurm의 사용 범위에 대한 궁금증을 나타냄.
무작위로 클릭해서 repeatability에 대해 알아보았는데, 분산 트레이닝에서 이것이 어떻게 달성되는지 여전히 궁금합니다. 결정적 동기화가 일을 느리게 만들지 않나요? 하지만 적어도 몇몇 큰 회사에서는 그들의 트레이닝이 반복 가능하다고 들었습니다.
분산 트레이닝에서의 반복 가능성과 결정적 동기화가 성능에 미치는 영향에 대한 의문을 제기함.
Hacker News 의견
이 글은 정말 가치 있다. 연구를 지원하기 위해 LLM 트레이닝 설정을 디버깅하는 일을 하고 있는데, 시작할 때 이런 노트가 있었다면 좋았을 것이다.
저는 Applied Scientist와 함께 일하면서 모델 트레이닝과 배포와 관련된 작업을 돕고 있습니다; 저 같은 사람은 최적화, 성능 등과 같은 더 낮은 수준의 엔지니어링 작업에 어떻게 노출될 수 있을까요? 우리에게는 ML 인프라 팀이 있지만, 그들의 목표는 플랫폼 주변의 도구를 구축하는 것이지, 반드시 워크로드를 최적으로 실행하는 것은 아닙니다.
이것을 실험해보고 싶은데, 제대로 된 GPU가 없어요. 여러분은 이것들을 어떻게 실행하나요?
AI Battlefield 섹션의 "Unsolicited Advice"에 있는 모든 것에 대해 정말 감사합니다 [1]. AI 개발의 빠른 진전에 항상 허우적대는 것과 그로 인한 감정적 부담에 대한 매우 현실적인 관점입니다.
Slurm이 얼마나 널리 사용되고 있나요?
무작위로 클릭해서 repeatability에 대해 알아보았는데, 분산 트레이닝에서 이것이 어떻게 달성되는지 여전히 궁금합니다. 결정적 동기화가 일을 느리게 만들지 않나요? 하지만 적어도 몇몇 큰 회사에서는 그들의 트레이닝이 반복 가능하다고 들었습니다.
직업이 없을 때 이런 것들에 대한 경험을 어떻게 쌓나요?
어딘가에 pdf가 있나요? 빌드하는 방법은 있지만 실제 파일은 없는 것 같습니다.