# GPT-4.5 또는 GPT-5가 LMSYS에서 테스트 중?

> Clean Markdown view of GeekNews topic #14566. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=14566](https://news.hada.io/topic?id=14566)
- GeekNews Markdown: [https://news.hada.io/topic/14566.md](https://news.hada.io/topic/14566.md)
- Type: GN+
- Author: [xguru](https://news.hada.io/@xguru)
- Published: 2024-04-30T09:45:35+09:00
- Updated: 2024-04-30T09:45:35+09:00
- Original source: [rentry.co](https://rentry.co/GPT2)
- Points: 3
- Comments: 0

## Topic Body

### 배경 내용  
  
- LMSYS에서 최근 공개한 gpt2-chatbot 모델은 기존에 알려진 GPT-2 모델을 훨씬 뛰어넘는 성능을 보여주고 있음  
- 해당 모델에 대한 정보는 LMSYS 사이트나 다른 곳에서도 찾기 어려움  
- LMSYS의 벤치마크 API 결과에서도 이 모델만 유독 제외되어 있음  
  
### GPT2-Chatbot 모델의 주요 특징  
  
- 자신을 "GPT-4 기반"이라고 주장하며 "ChatGPT"라고 지칭함  
- 다른 조직에서 생성한 OpenAI 데이터셋으로 학습한 모델들과는 다른 특징을 보임   
- OpenAI의 tiktoken tokenizer를 사용하는 것으로 보임  
- OpenAI 고유의 프롬프트 인젝션 취약점이 발견됨  
- 다른 조직의 모델들과는 다른 출력 특성을 보임  
  
### GPT2-Chatbot에 대한 주관적 의견  
  
- 실제로는 GPT-4.5나 GPT-5일 가능성이 높아 보임. 출력 품질이 GPT-3.5에서 GPT-4로의 도약만큼 크게 향상됨  
- LMSYS가 자체 모델을 학습했거나 MoE와 유사한 방식을 사용했을 가능성도 있으나, OpenAI와의 연관성을 볼 때 가능성은 낮아 보임  
  
### GPT2-Chatbot 공개 목적에 대한 추론  
  
- OpenAI가 LMSYS를 통해 은밀히 최신 GPT 모델을 벤치마킹하기 위한 것으로 보임  
- 일반적인 벤치마크 테스트 결과를 얻고, 과도한 기대감으로 인한 부정적 평가를 피하며, 다른 경쟁사의 견제를 최소화하기 위함  
  
### 또 다른 가능성에 대한 고찰  
  
- 실제로 GPT-2 아키텍처 기반일 가능성도 있음. 최근 연구에 따르면 GPT-2가 특정 영역에서 다른 모델보다 우수한 성능을 보였기 때문  
- GPT-4로 자칭하는 것은 GPT-4로 생성된 데이터셋을 활용했기 때문일 수 있음  
- LMSYS의 후원사 중 하나인 MBZUAI가 해당 연구에 관여했다는 점도 주목할 만함  
  
### GN⁺의 의견  
  
- gpt2-chatbot의 정체를 둘러싼 추측들이 흥미로움. OpenAI의 최신 모델일 가능성이 높다는 의견에 동의  
- 한편으로 GPT-2 아키텍처를 기반으로 했을 가능성도 배제할 순 없음. 최근 연구 결과들을 보면 GPT-2의 잠재력이 여전히 높아 보임  
- OpenAI가 LMSYS를 통해 은밀히 벤치마킹을 진행하고 있다는 추측도 설득력이 있음. 경쟁사의 견제를 피하면서도 객관적인 평가를 얻을 수 있는 전략.  
- 앞으로도 gpt2-chatbot의 실체를 밝히기 위한 다양한 실험과 연구가 이어질 것 같음. 대형 언어 모델 분야의 발전상을 가늠해 볼 수 있는 계기가 될 듯  
- 애초에 "gpt2-chatbot"이라는 이름 자체가 GPT-2라는 인상을 주기 위한 것일 수도 있을 것. OpenAI가 의도적으로 붙인 이름일 가능성도 배제할 순 없을 것 같음

## Comments


_No public comments on this page._