GPT-4의 비결정성은 Sparse MoE에 의해 발생

▲

GN⁺ 2023-08-06 | parent | ★ favorite | on: GPT-4의 비결정성은 Sparse MoE에 의해 발생(152334H.github.io)

Hacker News 의견

GPT-4의 비결정성은 그것의 Sparse Mixture of Experts (MoE) 모델에 기인한다.
AI/ML 시스템에서의 부동 소수점 부정확성은 대체로 결정적이며, 이질적인 결과는 상태나 엔트로피의 다른 원천 때문일 수 있다.
논문은 GPT-4의 효율적인 추론이 별도의 입력에서 토큰을 혼합하는 것에 의존할 수 있음을 제안하며, 이는 비결정성을 도입하고 응답의 품질에 영향을 미칠 수 있다.
응답의 품질은 동일한 '전문가' 할당을 경쟁하는 동시 요청의 수에도 의존할 수 있다.
이것은 시간이 지남에 따른 인식된 품질 저하를 설명할 수 있으며, 더 많은 동시 사용이 덜 신뢰할 수 있는 결과로 이어질 수 있다.
MoE 모델의 GPT-3.5에서의 사용은 더 적은 것으로 더 많은 것을 할 수 있다는 것을 의미하므로, 오픈 소스 운동에 희망을 제공할 수 있다.
배치 내의 시퀀스가 다른 것들의 라우팅에 영향을 미칠 수 있다면 사이드 채널 공격의 가능성이 도입된다.
MoE 접근법은 입력 데이터의 다른 부분에 대해 모델의 다른 "전문가" 또는 부분을 선택하여 모델의 작동에 확률성 또는 무작위성을 도입한다.
약간 다른 맥락에서 두 번 처리된 동일한 입력 데이터는 약간 다른 전문가 집합을 상담할 수 있어, 약간 다른 출력을 낼 수 있다.
무거운 부하 하에서, 결과는 전문가 버퍼에서 사용 가능한 자리를 경쟁하는 토큰 때문에 변할 수 있다.
이 전문가 버퍼 경쟁은 왜 ChatGPT가 긴 코드를 요청할 때 함수 대신 플레이스홀더를 작성하는지 설명할 수도 있다.