# OpenAI, GPT 4.1 공개

> Clean Markdown view of GeekNews topic #20334. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20334](https://news.hada.io/topic?id=20334)
- GeekNews Markdown: [https://news.hada.io/topic/20334.md](https://news.hada.io/topic/20334.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-15T10:28:51+09:00
- Updated: 2025-04-15T10:28:51+09:00
- Original source: [openai.com](https://openai.com/index/gpt-4-1/)
- Points: 3
- Comments: 1

## Summary

OpenAI는 GPT-4.1, GPT-4.1 mini, GPT-4.1 nano 세 가지 모델을 공개했으며, 이 모델들은 **코딩, 지시 따르기, 긴 문맥 이해**에서 성능이 크게 향상되었습니다. 모든 모델은 최대 **100만 토큰의 컨텍스트 윈도우**를 지원하여 복잡한 문서 분석에 적합합니다. **지연 시간 절감 및 비용 절감**과 함께 뛰어난 성능을 제공하며, 특히 **GPT-4.1 nano**는 최저 비용과 지연 시간을 자랑합니다.

## Topic Body

- GPT-4.1, GPT-4.1 mini, GPT-4.1 nano 3개의 모델 공개  
- GPT-4o 대비 전반적으로 개선된 성능을 제공하며, 특히 **코딩, 지시 따르기, 긴 문맥 이해**에서 두드러지는 성능 향상  
- 세모델 모두 최대 **100만 토큰의 컨텍스트 윈도우**을 지원하여 대형 코드베이스 및 복잡한 문서 분석에 적합함   
- **지연 시간 절감 및 비용 절감**과 함께 뛰어난 성능 제공  
- 주요 성능 개선  
  - **코딩 능력**: SWE-bench Verified에서 54.6%로 GPT-4o 대비 +21.4%p 향상  
  - **지시 따르기**: MultiChallenge 점수 38.3%로 GPT-4o보다 +10.5%p 향상  
  - **멀티모달 긴 문맥 이해**: Video-MME(long, no subtitles)에서 72.0%, GPT-4o 대비 +6.7%p  
- GPT-4.1 모델군 특징  
  - **GPT-4.1 mini**: GPT-4o보다 뛰어난 지능 평가 결과, 지연 시간 절반, 비용 83% 절감  
  - **GPT-4.1 nano**: 최저 비용과 최저 지연 시간, 고성능 유지  
- **GPT-4.5 Preview는 2025년 7월 14일에 종료 예정**, GPT-4.1 시리즈로의 전환을 권장  
- 비전(이미지 이해 및 멀티모달)  
  - GPT-4.1 mini는 **이미지 기반 벤치마크**에서 GPT-4o 능가  
  - **MMMU, MathVista, CharXiv** 등에서 높은 정확도  
  - **Video-MME**(30~60분 자막 없는 영상 질문): 72.0% 정확도  
- 가격 정책  
  - 전 모델 모두 공개 및 사용 가능  
  - GPT-4.1은 **GPT-4o보다 평균 26% 저렴**  
  - **GPT-4.1 nano는 최저 비용 모델**  
  - 캐시 입력 시 비용 75% 할인, 긴 문맥도 추가 비용 없음  
- 모델별 가격   
  - **GPT-4.1**: 입력 100만 토큰당 $2.00, 출력 $8.00, 평균 비용 약 $1.84   
  - **GPT-4.1 mini**: 입력 $0.40, 출력 $1.60, 평균 $0.42  
  - **GPT-4.1 nano**: 입력 $0.10, 출력 $0.40, 평균 $0.12  
  - 프롬프트 캐시 할인을 기존 50%에서 **75%까지 할인 확대**  
  - **긴 문맥 요청은 추가 요금 없음**, 토큰 사용량만 기준

## Comments


### Comment 37184

- Author: neo
- Created: 2025-04-15T10:28:51+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43683410) 
- ChatGPT 사용자는 다양한 모델을 선택해야 하는 상황에 대해 혼란스러움을 표현함
  - 4o는 웹 검색, Canvas 사용, Python 서버 측 평가, 이미지 생성 가능하지만 사고의 연쇄가 없음
  - o3-mini는 웹 검색, CoT, Canvas 가능하지만 이미지 생성 불가
  - o1은 CoT 가능하지만 Canvas나 웹 검색, 이미지 생성 불가
  - Deep Research는 강력하지만 월 10회만 사용 가능하여 거의 사용하지 않음
  - 4.5는 창의적 글쓰기에서 우수하지만 요청 제한이 있고 다른 기능 지원 여부를 모름
  - 4o "with scheduled tasks"는 왜 도구가 아닌 모델인지 의문

- SWE-bench Verified, Aider Polyglot, 비용, 초당 출력 토큰, 지식 컷오프 월/년 비교
  - Claude, Gemini, GPT-4.1, DeepSeek R1, Grok 3 Beta의 성능 및 비용 비교
  - 서로 다른 테스트 환경과 사고 수준이 포함될 수 있어 직접 비교가 어려움

- OAI가 GPT 4.1을 위한 프롬프트 가이드를 발행함
  - 모델에 지속성을 부여하는 것이 성능 향상에 도움
  - JSON 대신 XML 또는 arxiv 2406.13121(GDM 형식) 사용 권장
  - 프롬프트는 상단과 하단에 배치해야 함

- OpenAI의 발표에 따르면, GPT-4.1이 Claude Sonnet 3.7과의 코드 리뷰 생성 대결에서 55%의 경우 더 나은 제안을 제공함
  - GPT-4.1은 정밀성과 포괄성에서 우수함

- 최근 Ted Talk에서 Sam이 모델은 오고 가지만 최고의 플랫폼이 되고 싶다고 발언함
  - 이는 큰 변화로 느껴짐

- GPT-4.1을 복잡한 코드 베이스에서 사용한 경험 공유
  - OpenAI의 첫 번째 에이전트 모델로 느껴짐
  - 여전히 개선이 필요하며, 도구 호출이 자주 실패함
  - Claude에 비해 복잡성을 다루는 능력이 떨어짐
  - 요청이 너무 복잡하지 않으면 요청에 충실함

- 긴 최대 토큰 모델의 성능에 대한 벤치마크 필요성 제기
  - Gemini 모델에서 200k 이후 품질 저하 경험
  - 최대 토큰 한도를 늘리는 것이 실제로 유용한지 의문

- 대형 AI 연구소들이 여러 시장 전쟁을 동시에 치르고 있음
  - 소비자 성장, 엔터프라이즈 워크로드, 최첨단 연구, 추론 약속 및 DeepSeek 위협에 대한 대응 등 다양한 전선에서 경쟁 중

- GPT-4.1이 164개의 댓글이 달린 Hacker News 스레드를 요약한 결과
  - 명령을 잘 따르는 것으로 평가됨
  - 총 토큰 비용과 다른 모델과의 비교 제공