Ask HN: 머신 러닝 엔지니어들은 업무시간에 어떤 일 하나요?

(news.ycombinator.com)

36P by xguru 2024-06-10 | ★ favorite | 댓글 4개

질문에 답변한 사람들 내용을 정리

schmookeeg

현재 기계 학습 엔지니어로 일하면서 가장 좋아하는 부분은 기술적 배경이 없는 사람들과 협업하는 것임
- MS Outlook을 5번 중 3번 이상 열지 못하는 사람들도 자신의 전문 분야에 대해 놀랄만한 깊이와 통찰력을 가지고 있음
- 이는 매우 겸허하게 만듦
기술적 배경이 없는 사람들은 나를 마법사로 보고, 나는 그들을 부두교 사제로 봄
- 우리가 좋아하는 것을 훈련시키고 예측할 때, 양쪽 모두에게 매우 보람 있음
대부분의 모델링은 의료 관련임
- 청구, 처방전, 의사 소견, 생체 징후, 진단 영상 등의 방대한 데이터 레이크에서 인사이트를 이끌어냄
- 이 정보에 매우 쉽게 접근 가능하다는 것도 엄청남 (HIPAA는 제쳐두고)
시간적 현실
- 일주일에 회의가 약 3시간 정도 걸림
- 업무 준비, ETL 문제 해결, 비즈니스를 위한 일회성 쿼리 수행 등에 3시간 정도 소요됨
- 나머지 시간은 수백만 달러 규모의 수익을 예측하는데 약간의 우위를 찾기위해 데이터를 탐색함
  - 이는 마치 수학으로 월리를 찾는 것과 같음
  - 그 월리 씬은 약 50TB 크기임 :D

burnedout_dc4e3

2000년대 중반부터 머신 러닝을 해왔음
절반의 시간은 모델 훈련과 사용을 위해 데이터를 정리하는 "데이터 파이프라인을 계속 운영"하는 데 소비됨
또 다른 절반의 시간은 코딩 능력이 거의 없는 "AI 과학자"들을 위한 기술 지원에 소비됨
- 그들은 다양한 챗봇 서비스에 내용을 복사/붙여넣기 하는 데 시간을 보냄
  - Python 패키지 설치 및 Git 사용 방법 등을 알려주는 것이 주된 일임
- 그들의 작업이 우리가 하고 있는 프로젝트에 어떻게 적용될 것인지에 대한 계획은 없음
  - 그러나 트랜스포머 모델이 우리의 모든 데이터 처리 문제를 해결할 것이라고 주장함
이 과대 광고 사이클이 끝날 때까지 새로운 일을 하지 않고 그만둘까 고민 중

tambourineman88

머신 러닝을 공부할 때 예상과는 반대되는 현실
- 이 일의 95%는 데이터 정리, 데이터셋 결합, 그리고 피쳐 엔지니어링임
- 모델 적합과 테스트는 단지 5%에 불과함
이 글에 대한 답글 #1
- 처음부터 지금까지 그래왔고, 앞으로도 계속될 것임, 아멘
- 스태프/책임자 레벨에서의 중요 사항
  - 추론 모델에 의존하는 제품 기능과 데이터 캡처 사이의 "데이터 임피던스"를 유지하는 것이 중요함
  - 이는 제품이나 기능이 변경되더라도 데이터 저장소와 훈련 코퍼스에 데이터를 공급하는 계측과 데이터 세분성이 깨지지 않도록 하기 위함임
- 강화 학습(RL) 문제에서의 중요 사항
  - 상태와 행동 공간 튜플에 대해 올바른 변수가 캡처되었는지 확인하는 것이 중요함
  - 그 다음으로는 보상 피드백을 위해 인터페이스나 환경 모델을 조정하는 방법을 찾는 것임

davedx

pip install pytorch 실행
환경이 깨짐
Python 환경 수정에 4시간 소요
pip install Pillow 실행
Mac 북의 CPU 아키텍처에 맞지 않는다는 오류 발생
Python 관련 모든 것을 제거한 후 처음부터 다시 설치하는 데 4시간 더 소요
pip install ... 실행하려 했으나 퇴근 시간이 됨!

Xenoamorphous

일반 소프트웨어 개발자인데, 필요에 의해 ML 작업을 해야 했음
"진짜" ML 전문가들이 확률적/경사하강법 결과와 사람들의 기대치를 어떻게 다루는지 궁금함
일반 소프트웨어 작업에서는 동작하거나 동작하지 않고, 동작하지 않으면 이유를 설명하고 바라건대 고칠 수 있음
그러나 ML에서는 "이 텍스트 분류기가 이 텍스트를 올바르게 분류하지 않은 이유는 무엇인가?"라는 질문을 받음
- 이에 대해 "임계값을 만족하기에 0.004점 부족했다"거나 "단어 선택이나 순서 때문에 만족하지 못했다"고 밖에 말할 수 없음
- 이는 모두를 불만족스럽게 만드는 것 같음

angarg12

직책은 ML 엔지니어이지만 실제 업무는 거의 순수한 소프트웨어 엔지니어링에 가까움
프로덕션 환경에서 ML 시스템을 지원하는 시스템 구축이 주된 업무
- 다른 사람들이 언급했듯이 주로 데이터 변환, 모델 훈련, 모델 서빙 등이 포함됨
도구를 구축하거나 기존 시스템을 수정하여 과학자들이 업무를 수행할 수 있도록 지원하는 것도 업무에 포함됨
그러나 외부를 보면 필자의 회사는 이례적인 것 같음
업계에서는 ML 엔지니어에 대한 기대치가 데이터/응용 과학자가 하는 일(예: 모델 구축 및 테스트)과 더 잘 맞는 것으로 보임
- 이는 각 회사의 각 역할에 대한 기대에 많은 모호성을 야기함

runban

높은 급여를 받는 청소부
- 더러운 데이터로는 제대로 된 결과를 얻을 수 없음
- 참고로 이 작업에는 Python보다 Perl이 훨씬 더 좋음
높은 급여를 받는 마더보드 문제 해결사
- 수랭식 쿨링을 사용하더라도 H100들은 정말 뜨거워짐
- 전담 하드웨어 담당자가 없기 때문
모두가 그렇듯이 제멋대로 굴러가는 제3자 종속성과 싸움

primaprashant

지난 5년 동안 MLE로 일해 왔으며, 다른 댓글에서 언급했듯이 대부분의 작업은 SWE와 유사함
프로젝트 단계에 따라 일상적인 작업은 다양하지만, 다음 중 하나에 해당함:
- 이해관계자 및 TPM과의 협업, 데이터 분석을 통해 우선순위가 높은 비즈니스 문제 해결을 위한 가설 개발
- 비즈니스 문제를 ML 문제로 구성하고, ML 모델과 비즈니스 문제에 적합한 메트릭 생성
- 새로운 기능과 아이디어의 기술적 실현 가능성을 검증하기 위한 PoC 및 프로토타입 구축
- 아키텍처 및 기술적 의사 결정을 위한 설계 문서 작성
- 플랫폼 팀과 협력하여 새로운 ML 프로젝트와 기존 ML 프로젝트의 요구사항에 따라 데이터 파이프라인 설정 및 유지 관리
- 추론을 위한 ML 마이크로서비스 구축, 배포 및 유지 보수
- A/B 테스트 실행 및 사후 테스트 분석을 위한 설계 문서 작성
- ML 모델 재학습을 위한 파이프라인 설정

jackspawn

시간의 50% 이상을 백엔드 엔지니어링에 할애함
- ML이 더 큰 API 내에서 사용되기 때문
해당 API의 엔드 투 엔드 경험에 대한 책임을 짐
- 따라서 시간 대비 최상의 가치를 제공하는 것은 무엇이든 수행함
- 이는 종종 ML 모델과는 아무 관련이 없음

mardifoufs

추론 코드 최적화, 훈련된 모델 "제품화" 작업을 수행함
현재는 클라우드 서비스가 아직 일반적으로 사용되지 않는 산업에서 일하기 때문에 로컬 훈련 및 추론 작업 중
- LLM이 아니기 때문에 미리 만들어진 도구가 많지 않아 흥미로움
- 많은 것을 직접 만들어야 함
데이터 품질 평가(로컬 부분이 도전적)부터 CUDA를 직접 사용하는 것까지 다양한 작업을 수행함
- 이미 CUDA를 기반으로 구축되어 활용할 수 있는 신호 처리 라이브러리가 있기 때문
때로는 팀(연구원/MLE 혼합 팀) 내부 도구 구축도 포함됨
- 매우 틈새 분야이기 때문에 데이터와 추론을 시각화하기 위해 직접 구축해야 함
도구 및 내부 소프트웨어 설계와 관련하여 완전한 자유가 있어 조직 내에서 많은 영향을 미칠 수 있었음
즉흥적으로 구축한 도구 중 하나가 이제 주력 제품에도 탑재될 예정임

hirako2000

주요 업무는 아니지만 대부분의 시간을 "이것저것 붙이는" 작업에 소비
- 기존 오픈 소스 조정
- 리소스 최적화 방법 파악
- 다른 데이터 세트에서 모델 재학습
- 엉성하게 작성된 Python 코드 실행 시도
- 누락된 요구사항 파일 추가
- 데이터 정리
이미 수년 전에 수행되지 않은, ML로 실제로 유용하게 해결할 수 있는 것이 무엇일지 고민함
최신 GPU 가격을 확인하고, 호스팅 제공업체에서 비싼 시간을 빌리는 것보다 GPU를 구입하는 것이 가치 있는지 계산함
머리가 아플 때까지 논문을 읽음
- 초록을 읽고 중간에 있는 몇 개의 다이어그램을 훑어보는 데 시간이 걸림

tenache

머신러닝을 공부하고 원래 그 역할을 위해 고용되었지만, 회사가 방향을 바꾸어 현재는 LLM 작업 중
대부분의 시간을 다음과 같은 작업에 할애함:
- 다양한 LLM의 작동 방식 파악
- 최적의 매개변수 찾기
- RAG(Retrieval-Augmented Generation) 수행 방법
- 다른 봇과의 통합 방법

trybackprop

주어진 일주일 동안 일반적으로 다음과 같은 업무를 수행함:
15%: 기술 토론 회의 또는 1:1 미팅
- 일반적으로 모델에 대한 아이디어, 계획 또는 ML 제품 지원에 대해 논의함
40%: ML 개발
- 프로젝트 초기 단계에서는 제품 요구사항을 이해함
- 제품/비즈니스 목표 달성에 도움이 될 수 있는 ML 모델이나 알고리즘을 팀과 논의함
- 분석가와 데이터 과학자로부터 기존 데이터셋을 수집함
- 이 데이터셋을 사용하여 학습 및 검증 데이터셋을 생성하는 파이프라인을 만듦
- 학습/검증 데이터셋이 채워지기를 기다리는 동안(최대 2주 소요), 개발 단계가 더 앞서거나 뒤쳐진 다른 프로젝트에 동시에 작업함
- 새로운 모델(PyTorch로 작성)에도 작업하고, 소량의 데이터로 테스트하여 오프라인 성능을 평가하고, 기대한 대로 작동하는지 여부를 평가함
- 모델을 사용하여 제품 정보를 채우는 몇 가지 수동 테스트를 실행하여 모델의 건전성을 확인함 (대규모 실험 없이는 자신과 팀원의 직감에 의존할 수밖에 없음)
- 학습/검증 데이터셋이 채워지면 대량의 데이터에 대해 모델을 학습시키고, 오프라인 결과를 확인하고, 문제가 있으면 모델을 조정하거나 아키텍처를 변경함
- 오프라인 결과가 양호하거나 좋아 보이면 실험을 위해 모델을 프로덕션에 배포함
- 동시에 구축한 새 모델의 테스트를 위해 제품/인프라 코드를 변경할 수 있음
- 실험을 실행하고 트래픽을 천천히 늘려 1-5% 할당이 되면 몇 주 또는 한 달 동안 실행함
- 한편, 결과를 관찰하고 모든 관련 파이프라인을 모니터링하여 모델이 적절하게 훈련되도록 하여 예기치 않은 인프라/버그/제품 요인으로 인해 실험 결과가 변경되지 않도록 함
- 결과가 예상대로 보이고 초기 가설과 일치하면 팀과 출시 여부를 논의하고, 출시하기로 결정하면 출시함!
  - (참고: 모델 개발에는 특징 작성, 데이터셋 준비, 분석, ML 모델 자체 생성, 제품/인프라 코드 변경 구현 등이 포함됨)
20%: 유지 관리
- 새 모델을 개발하고 있다고 해서 기존 모델을 무시하는 것은 아님
- 매일 확인하여 성능이 저하되거나 예기치 않은 방식으로 성능이 변경되지 않았는지 확인함
- 또한 파이프라인을 수정하고 더 효율적으로 만듦
15%: 연구 논문 및 기술 습득
- AI/ML 세계가 빠르게 변화하고 있어 지속적으로 새로운 연구 논문을 읽고 최신 상태를 유지하기 위해 가정에서 새로운 기술을 테스트함
- 재미있어서 부담스럽지 않음
- 최신 상태를 유지하기 위한 일로 보지 않음
10%: 내부 연구
- 팀이나 회사 내 다른 제품에 대해 더 배우고, 우리 팀이 어떻게 도울 수 있는지 또는 그들로부터 어떤 기술/기법을 빌릴 수 있는지 알아보는 데 이 시간을 사용함
- 또한 지난 6개월/1년 동안의 작업을 되돌아보면서 얻은 통찰력을 적는 데도 이 시간을 사용함