# GPT-5 "Orion" 개발 지연

> Clean Markdown view of GeekNews topic #18395. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=18395](https://news.hada.io/topic?id=18395)
- GeekNews Markdown: [https://news.hada.io/topic/18395.md](https://news.hada.io/topic/18395.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2024-12-23T10:04:45+09:00
- Updated: 2024-12-23T10:04:45+09:00
- Original source: [wsj.com](https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693)
- Points: 12
- Comments: 7

## Summary

OpenAI의 차세대 AI 프로젝트 GPT-5(코드명 Orion)는 일정 지연과 막대한 비용 문제에 직면해 있으며, 현재 성능은 기존 GPT-4보다 약간 나은 수준입니다. 훈련 데이터 부족과 내부 갈등, 경쟁사의 압박 속에서 OpenAI는 새로운 추론 모델 개발을 통해 성능 향상을 시도하고 있지만, 높은 비용 부담이 따르고 있습니다. 이러한 상황에서 GPT-5의 성공적인 출시는 여전히 불확실하며, AI 발전의 새로운 돌파구를 모색 중입니다.

## Topic Body

- OpenAI의 차세대 AI 프로젝트 **GPT-5(코드명 Orion)** 은 일정이 지연되고 막대한 비용이 발생 중  
- GPT-5는 ChatGPT를 가능하게 한 기술의 주요 발전을 목표로 하지만, 성공 가능성과 일정이 불확실  
- 주요 투자자인 Microsoft는 2024년 중반 공개를 기대했으나, OpenAI 내부 테스트에서 여러 문제 발생  
  
### 프로젝트 현황과 비용  
  
- GPT-5는 이미 두 차례 대규모 훈련을 진행했으며, 각 훈련에 수억 달러가 소요  
- 예상 성능을 충족하지 못하며, 현재 성능은 기존 GPT-4보다 약간 나은 수준  
- OpenAI의 Sam Altman CEO는 GPT-5가 획기적인 발전을 제공할 것이라고 강조  
  
### 훈련 데이터와 기술적 문제  
  
- LLM 훈련에는 방대한 데이터가 필요하지만, 현재 인터넷에는 충분한 고품질 데이터가 부족  
- OpenAI는 수학 문제 해결, 소프트웨어 코드 작성 등을 통해 직접 데이터를 생성하는 방법을 채택  
- **합성 데이터**(AI가 생성한 데이터)도 활용 중이지만, 자체 데이터 생성 과정에서 오류와 비합리적 결과 위험 존재  
  
### 내부 문제와 경쟁 압박  
  
- OpenAI 내부 갈등 및 경쟁사의 인재 영입 시도 증가  
- 공동 창립자 Ilya Sutskever 및 CTO Mira Murati를 포함한 24명 이상 주요 인력이 퇴사  
- 경쟁사인 Anthropic과 Google이 더 나은 LLM을 출시하며 경쟁 심화  
  
### 새로운 접근법: 추론 모델  
  
- OpenAI는 LLM 성능 향상을 위해 새로운 **추론 모델** 개발  
  - 단순히 데이터만 확장하는 기존 접근법의 한계 인식  
  - **o1 모델**은 하나의 질문에 여러 답변을 생성하고 이를 분석해 최적의 답변을 선택  
  - 복잡한 문제를 해결하고, 답변 과정을 설명하며 학습 가능  
  
### 비용과 성능의 트레이드오프  
  
- 추론 기반 모델은 기존 방법보다 성능이 향상되었으나, 높은 비용 부담  
  - 단일 질문에 대해 여러 답변을 생성해야 하므로 계산 비용 증가  
- 연구진은 추론 모델과 기존 데이터 중심 접근법을 결합해 GPT-5의 기반을 마련하려 노력  
  
### 산업적 도전과 데이터 부족  
  
- AI 업계는 점점 더 데이터 부족 문제와 한계에 직면  
- 데이터가 "AI의 화석 연료"라는 비유처럼, 추가 고품질 데이터를 확보하기 어려운 상황  
- GPT-5 개발이 멈추면, AI 개선이 정체될 가능성도 제기  
  
### 결론  
  
- OpenAI는 Orion 프로젝트에서 기술적, 재정적, 인적 자원 문제로 어려움을 겪고 있음  
- 새로운 추론 모델이 AI 발전의 새로운 돌파구가 될 가능성을 모색 중  
- 그러나 GPT-5로 인정받을만한 모델의 출시는 여전히 불확실

## Comments


### Comment 32631

- Author: aer0700
- Created: 2024-12-24T04:46:03+09:00
- Points: 1

석유화학 기업이 석유를 휘발유, 경유 등으로 정제하듯,  
데이터 정제 기업이 비정제된 데이터를 이쁘게 정제해주는 사업 모델도 있을 수 있겠네요.  
사내에 수없이 쌓여있는 표준작업절차서 엑셀, ppt 파일을 정제해서 gpt 파인튜닝에 쓴다거나?

### Comment 32630

- Author: softer
- Created: 2024-12-23T22:46:06+09:00
- Points: 1

예정된 벽이라고 생각되고   
스스로 인지하고 생각하는 방향으로 틀어도 재밌겠다는 생각도 좀 드네요

### Comment 32604

- Author: windrod
- Created: 2024-12-23T11:58:08+09:00
- Points: 3

정해져있는 로드맵이나 기준이 딱히 없는 상태에서 개발지연이 된다 만다 이야기하는 것은 이것도 그냥 마케팅성 정보 흘리기 일 가능성이 많겠죠.

### Comment 32603

- Author: mammal
- Created: 2024-12-23T11:46:14+09:00
- Points: 1

> o1 모델은 하나의 질문에 여러 답변을 생성하고 이를 분석해 최적의 답변을 선택  
  
o1은 MCTS나 서치 기반이 아니라 RL로 CoT를 확장한 모델입니다

### Comment 32616

- Author: curiousotter
- Created: 2024-12-23T15:14:33+09:00
- Points: 1
- Parent comment: 32603
- Depth: 1

여러 답변을 생성하고 -> 이 부분이 병렬적으로 여러 답변을 생성하고 그 중 택1한다가 아니라  
말씀주신 것처럼 CoT로 답변이 됐다고 판단할 때까지 순차적으로 답변을 생성해 최적의 답변을 낸다..  
이게 번역 과정에서 오역이 된건가 싶기도 하네요 원글 확인이 어려워 모르겠지만..

### Comment 32622

- Author: mammal
- Created: 2024-12-23T15:35:16+09:00
- Points: 1
- Parent comment: 32616
- Depth: 2

> Behind the scenes, OpenAI’s o1 offers several responses to each question and analyzes them to find the best one. It can perform more complex tasks, like writing a business plan or creating a crossword puzzle, while explaining its reasoning—which helps the model learn a little bit from each answer.  
  
> All that added brainpower is expensive. OpenAI is now paying to generate multiple answers to a single query, instead of just one.  
  
아무래도 기자는 여러 답변 생성하고 하나 택하는 방식으로 이해한듯 하네요

### Comment 32598

- Author: neo
- Created: 2024-12-23T10:04:45+09:00
- Points: 2

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42485938) 
- 모델 훈련 비용이 증가함에 따라 학습에 필요한 시간이 늘어나는 문제점이 있음. 작은 모델이 더 빠른 혁신을 이룰 수 있는 이유는 피드백 루프가 더 짧기 때문임

- OpenAI의 GPT-4 개발에 대한 설명이 기사에 대한 신뢰를 주지 못함

- LLMs가 더 이상 단순히 데이터와 컴퓨팅 파워의 증가만으로는 발전하지 못하는 한계에 도달했음을 언급함. 새로운 아이디어가 필요하며, 이를 위한 자금은 충분히 준비되어 있음

- LLM의 현재 수준이 보수적인 신뢰도 지표를 제공할 수 있다면 훨씬 더 유용할 것임. "모르겠음" 또는 "확실하지 않지만..."과 같은 출력을 제공할 필요가 있음

- OpenAI의 다음 출시보다 중요한 것은 소프트웨어 산업이 이 기술을 통합하여 그 가치를 실현하는 것임

- 내부자 발언을 통해 추측할 수 있는 것은, 스케일링과 데이터 및 알고리즘 변화로 10배의 개선을 원한다는 것임. 공개 데이터 소스는 거의 소진되었으며, 알고리즘 변화는 연구를 통해 지속적인 개선을 이루고 있음

  - 데이터가 제한적일 경우 스케일링이 정체됨
  - 컴퓨팅을 더 나은 데이터로 전환하는 방법을 찾는 것이 논리적인 단계임
  - o3가 공개되면서, OpenAI의 다음 방어벽은 최고의 합성 훈련 세트가 될 가능성이 있음

- GPT-5는 일정이 늦춰지지 않았으며, GPT-4o로 이미 반년 전에 출시되었음. 혁신적이지 않아 5로 명명되지 않았고, 마지막 순간에 재브랜딩되었을 가능성이 있음

- 기술 저널리즘이 과장되었다고 언급하며, o3가 출시되었음에도 불구하고 여전히 비판적인 기사가 나옴

- o1-Pro는 주관적으로 GPT-4보다 훨씬 뛰어나며, o3는 그보다 더 나은 것으로 평가됨. 기술이 빠르게 발전하고 있음을 시사함

- 이 기술이 어떻게 적합하게 작동할지를 세계가 알아가고 있으며, 일정이 늦춰졌다는 것은 거의 코미디 같음