GPT-4.5 또는 GPT-5가 LMSYS에서 테스트 중?

(rentry.co)

3P by GN⁺ 2024-04-30 | ★ favorite | 댓글과 토론

배경 내용

LMSYS에서 최근 공개한 gpt2-chatbot 모델은 기존에 알려진 GPT-2 모델을 훨씬 뛰어넘는 성능을 보여주고 있음
해당 모델에 대한 정보는 LMSYS 사이트나 다른 곳에서도 찾기 어려움
LMSYS의 벤치마크 API 결과에서도 이 모델만 유독 제외되어 있음

GPT2-Chatbot 모델의 주요 특징

자신을 "GPT-4 기반"이라고 주장하며 "ChatGPT"라고 지칭함
다른 조직에서 생성한 OpenAI 데이터셋으로 학습한 모델들과는 다른 특징을 보임
OpenAI의 tiktoken tokenizer를 사용하는 것으로 보임
OpenAI 고유의 프롬프트 인젝션 취약점이 발견됨
다른 조직의 모델들과는 다른 출력 특성을 보임

GPT2-Chatbot에 대한 주관적 의견

실제로는 GPT-4.5나 GPT-5일 가능성이 높아 보임. 출력 품질이 GPT-3.5에서 GPT-4로의 도약만큼 크게 향상됨
LMSYS가 자체 모델을 학습했거나 MoE와 유사한 방식을 사용했을 가능성도 있으나, OpenAI와의 연관성을 볼 때 가능성은 낮아 보임

GPT2-Chatbot 공개 목적에 대한 추론

OpenAI가 LMSYS를 통해 은밀히 최신 GPT 모델을 벤치마킹하기 위한 것으로 보임
일반적인 벤치마크 테스트 결과를 얻고, 과도한 기대감으로 인한 부정적 평가를 피하며, 다른 경쟁사의 견제를 최소화하기 위함

또 다른 가능성에 대한 고찰

실제로 GPT-2 아키텍처 기반일 가능성도 있음. 최근 연구에 따르면 GPT-2가 특정 영역에서 다른 모델보다 우수한 성능을 보였기 때문
GPT-4로 자칭하는 것은 GPT-4로 생성된 데이터셋을 활용했기 때문일 수 있음
LMSYS의 후원사 중 하나인 MBZUAI가 해당 연구에 관여했다는 점도 주목할 만함

GN⁺의 의견

gpt2-chatbot의 정체를 둘러싼 추측들이 흥미로움. OpenAI의 최신 모델일 가능성이 높다는 의견에 동의
한편으로 GPT-2 아키텍처를 기반으로 했을 가능성도 배제할 순 없음. 최근 연구 결과들을 보면 GPT-2의 잠재력이 여전히 높아 보임
OpenAI가 LMSYS를 통해 은밀히 벤치마킹을 진행하고 있다는 추측도 설득력이 있음. 경쟁사의 견제를 피하면서도 객관적인 평가를 얻을 수 있는 전략.
앞으로도 gpt2-chatbot의 실체를 밝히기 위한 다양한 실험과 연구가 이어질 것 같음. 대형 언어 모델 분야의 발전상을 가늠해 볼 수 있는 계기가 될 듯
애초에 "gpt2-chatbot"이라는 이름 자체가 GPT-2라는 인상을 주기 위한 것일 수도 있을 것. OpenAI가 의도적으로 붙인 이름일 가능성도 배제할 순 없을 것 같음