1P by neo 2023-08-06 | favorite | 댓글 1개
  • OpenAI가 개발한 언어 모델인 GPT-4에서 관찰된 비결정성에 대한 기사
  • GPT-4/GPT-3.5-turbo는 temp=0에서 완전한 결정성을 의미해야 하는 밀집 디코더 전용 모델에서도 비결정적임
  • 초기에 비결정성은 잠재적인 버그 또는 최적화된 부동 소수점 계산의 비결정성으로 추정됨
  • 저자의 새로운 가설: GPT-4의 비결정성은 대부분 Sparse Mixture of Experts (MoE) 아키텍처가 시퀀스별 결정성을 강제하지 못하는 데 기인함
  • Sparse MoE 접근법은 고정 크기의 그룹에서 토큰을 라우팅하고 그룹 내에서 균형을 유지함으로써 시퀀스 수준에서 비결정성을 초래함
  • 저자는 이 가설을 테스트하기 위해 GPT-4에게 스크립트를 작성하도록 요청하고, GPT-4에서 고유한 완성도가 많이 나옴을 관찰하여 다른 모델보다 GPT-4가 훨씬 더 비결정적인 원인이 있다는 것을 확인함
  • 저자는 또한 GPT-3.5-turbo가 그 속도, 비결정성, 그리고 logprobs의 제거 때문에 MoE 모델일 수도 있다고 추측함
  • 이러한 발견의 함의는 중요함: 비결정성이 Sparse MoE와 함께 배치된 추론의 본질적인 특징이라면, 이 사실은 이러한 모델을 다루는 누구에게나 명확하게 드러나야 함
  • 저자는 결론을 내리면서 OpenAI의 GPT 모델에서의 비결정성은 일반적으로 비결정적인 CUDA 최적화 부동 소수점 연산의 부정확성으로 돌리지만, 근본 원인은 Sparse MoE 모델에서의 배치 추론일 수 있다고 주장함
Hacker News 의견
  • GPT-4의 비결정성은 그것의 Sparse Mixture of Experts (MoE) 모델에 기인한다.
  • AI/ML 시스템에서의 부동 소수점 부정확성은 대체로 결정적이며, 이질적인 결과는 상태나 엔트로피의 다른 원천 때문일 수 있다.
  • 논문은 GPT-4의 효율적인 추론이 별도의 입력에서 토큰을 혼합하는 것에 의존할 수 있음을 제안하며, 이는 비결정성을 도입하고 응답의 품질에 영향을 미칠 수 있다.
  • 응답의 품질은 동일한 '전문가' 할당을 경쟁하는 동시 요청의 수에도 의존할 수 있다.
  • 이것은 시간이 지남에 따른 인식된 품질 저하를 설명할 수 있으며, 더 많은 동시 사용이 덜 신뢰할 수 있는 결과로 이어질 수 있다.
  • MoE 모델의 GPT-3.5에서의 사용은 더 적은 것으로 더 많은 것을 할 수 있다는 것을 의미하므로, 오픈 소스 운동에 희망을 제공할 수 있다.
  • 배치 내의 시퀀스가 다른 것들의 라우팅에 영향을 미칠 수 있다면 사이드 채널 공격의 가능성이 도입된다.
  • MoE 접근법은 입력 데이터의 다른 부분에 대해 모델의 다른 "전문가" 또는 부분을 선택하여 모델의 작동에 확률성 또는 무작위성을 도입한다.
  • 약간 다른 맥락에서 두 번 처리된 동일한 입력 데이터는 약간 다른 전문가 집합을 상담할 수 있어, 약간 다른 출력을 낼 수 있다.
  • 무거운 부하 하에서, 결과는 전문가 버퍼에서 사용 가능한 자리를 경쟁하는 토큰 때문에 변할 수 있다.
  • 이 전문가 버퍼 경쟁은 왜 ChatGPT가 긴 코드를 요청할 때 함수 대신 플레이스홀더를 작성하는지 설명할 수도 있다.