GPT‑5.6 Sol 프리뷰: 차세대 모델
(openai.com)- OpenAI가 GPT‑5.6 시리즈를 제한 프리뷰로 열며, 플래그십 Sol과 일상 업무용 Terra, 저비용 Luna를 함께 내놓음
- Sol은 코딩·생물학·사이버보안에서 에이전트 능력을 강화했고,
maxreasoning effort와ultra모드로 더 깊은 추론과 서브에이전트 활용을 지원함 - 사이버보안 성능은 ExploitBench와 ExploitGym에서 개선됐지만, Chromium·Firefox 평가 조건에서는 기능적 full-chain exploit을 자율 생성하지 못해 Cyber Critical 임계값을 넘지 않음
- 프리뷰는 API와 Codex에서 일부 신뢰 파트너와 조직에 먼저 제공되며, 미국 정부 요청에 따른 제한 절차를 거쳐 더 넓은 공개를 준비함
- 가격은 100만 토큰 기준 Sol $5 입력 / $30 출력, Terra $2.50 입력 / $15 출력, Luna $1 입력 / $6 출력이며 캐시 쓰기는 1.25배, 캐시 읽기는 90% 할인됨
GPT‑5.6 시리즈 프리뷰 범위
- OpenAI는 제한 프리뷰로 GPT‑5.6 제품군을 먼저 공개함
- Sol: 플래그십 모델
- Terra: 일상 업무용 균형 모델
- Luna: 빠르고 저렴한 모델
- Terra는 GPT‑5.5와 경쟁력 있는 성능을 제공하면서 가격은 2배 저렴함
- Luna는 OpenAI의 가장 낮은 비용으로 강한 능력을 제공함
- GPT‑5.6 Sol은 OpenAI가 지금까지 구축한 것 중 가장 견고한 안전 스택과 함께 출시됨
- 고위험 활동
- 민감한 사이버 요청
- 반복적 오용
- 실제 공격에 대한 약점 탐색과 압박 테스트
제한 공개와 정부 협의
- OpenAI는 GPT‑5.6 Sol, Terra, Luna를 앞으로 몇 주 안에 일반 제공할 계획임
- 미국 정부와의 지속적인 협의 과정에서 출시 전 계획과 모델 능력을 공유함
- 정부 요청에 따라, 참여 사실이 정부에 공유된 소수의 신뢰 파트너를 대상으로 먼저 제한 프리뷰를 시작함
- OpenAI는 이런 정부 접근 절차가 장기적인 기본값이 되어서는 안 된다고 봄
- 사용자, 개발자, 기업, 사이버 방어자, 글로벌 파트너가 필요한 도구에 접근하지 못할 수 있기 때문임
- 이번 단기 절차는 몇 주 안에 더 넓은 공개로 가기 위한 경로임
- 행정부와 사이버 Executive Order 프레임워크 및 향후 모델 출시를 위한 반복 가능한 절차를 개발하는 동안 적용됨
모델 능력과 평가
- GPT‑5.6 Sol은 OpenAI의 가장 강한 모델로 소개됨
- 코딩, 생물학, 사이버보안 평가에서 향상된 에이전트 능력을 보임
- 추가 안전성과 준비도 평가는 GPT‑5.6 Preview system card에 포함됨
- 더 넓게 공개할 때 확장된 평가 결과 묶음을 공유할 계획임
-
추론 모드
- GPT‑5.6에는 Sol이 더 오래 깊게 추론할 수 있도록 하는
maxreasoning effort가 도입됨 - 새
ultra모드는 단일 에이전트 능력을 넘어, 서브에이전트를 활용해 복잡한 작업을 가속함
- GPT‑5.6에는 Sol이 더 오래 깊게 추론할 수 있도록 하는
-
코딩과 생물학
- GPT‑5.6 Sol은 명령줄 워크플로를 평가하는 Terminal‑Bench 2.1에서 새로운 최고 수준 성능을 기록함
- 이 벤치마크는 계획, 반복, 도구 조율이 필요한 명령줄 작업을 테스트함
- GeneBench v1에서는 GPT‑5.5보다 더 강한 결과를 내면서 더 적은 토큰을 사용함
- GeneBench v1은 장기 범위의 유전체학 및 정량 생물학 분석을 평가함
-
사이버보안
- GPT‑5.6 Sol은 OpenAI의 사이버보안 작업용 모델 중 가장 능력이 높음
- 취약점 연구와 익스플로잇을 포함한 장기 보안 작업에서 성능-효율 프런티어를 이동시킴
- ExploitBench에서는 Mythos Preview와 경쟁력 있는 결과를 내면서 출력 토큰은 약 3분의 1만 사용함
- ExploitGym에서는 Sol, Terra, Luna 모두 추론이 늘어날수록 사이버 능력에서 강한 개선을 보임
- ExploitGym은 UC Berkeley 연구자들이 OpenAI 및 다른 프런티어 랩과 협력해 만든 벤치마크임
사이버 능력과 안전장치
- GPT‑5.6 Sol, Terra, Luna는 각 모델 능력에 맞춘 OpenAI의 가장 견고한 안전장치와 함께 개발됨
- 모델 능력이 커질수록 실제 적대적 압력에서도 안전장치가 버티도록 설계함
- 합법적인 방어 작업 접근은 유지하려 함
- 코드 리뷰
- 취약점 연구
- 패치 개발
- 디버깅
- 보안 교육
- 방어적 테스트
- 목표는 금지된 공격적 활동을 더 어렵고, 불확실하며, 탐지 가능하게 만들면서 유익한 사용을 불필요하게 제한하지 않는 것임
- OpenAI의 평가에 따르면 합법적 방어 작업에는 상당한 이익이 있고, 금지된 공격적 사용은 의미 있게 제약됨
-
Cyber Critical 임계값
- GPT‑5.6 Sol은 Preparedness Framework 기준에서 Cyber Critical 임계값을 넘지 않음
- Chromium과 Firefox 관련 평가에서 버그와 exploit primitive는 식별함
- 테스트 조건에서는 기능적인 full-chain exploit을 자율적으로 만들지 못함
- 벤치마크 임계값이 모델 사용 방식이나 다른 도구와의 조합을 모두 포착할 수는 없음
- 이 불확실성과 전반적인 능력 향상 때문에 OpenAI는 더 강한 안전장치와 단계적 출시를 함께 적용함
계층형 안전 스택
- 의도적이거나 적응적인 오용은 단일 안전장치만으로 막기 어려움
- GPT‑5.6 프리뷰 전반에는 모델별로 구성이 다른 계층형 안전장치가 적용됨
- 모델에 훈련된 보호
- 생성 중 실시간 검사
- 계정 수준 신호
- 차등 접근
- 모니터링
- 집행
- 지속 테스트
-
모델 수준 거부와 실시간 검사
- GPT‑5.6은 사용자가 의도를 숨기거나 jailbreak를 시도해도 금지된 사이버 지원을 거부하도록 훈련됨
- 실시간 사이버 및 생물학 오용 분류기는 생성 중인 출력을 평가함
- 고위험 사례에서 잠재 위반이 감지되면 생성이 일시 중지될 수 있음
- 더 큰 추론 모델이 대화와 맥락을 검토하고, 출력이 금지된 것으로 평가되면 사용자에게 도달하기 전에 보류됨
-
계정 수준 검토와 차등 접근
- 플래그된 활동은 관련 대화와 위험 신호를 포함한 계정 수준 검토로 이어질 수 있음
- 단일 대화가 아니라 계정 수준 맥락을 보면 합법적 이중용도 보안 작업과 지속적 악성 행동을 구분하는 데 도움이 됨
- 차등 접근은 중요한 방어 작업을 유지하면서 가장 민감한 능력이 기본적으로 넓게 공개되지 않도록 함
-
프리뷰 중 사용자 영향
- 프리뷰 기간에는 일부 요청이 차단되거나 거부될 수 있음
- 추가 검토로 생성이 일시 중지되면 일부 요청은 더 오래 걸릴 수 있음
- 방어적 활동과 공격적 활동이 처음에는 비슷해 보일 수 있는 이중용도 영역에서는 합법적 작업에도 안전장치가 개입할 수 있음
- 프리뷰 피드백은 불필요한 차단과 지연을 줄이고, 안전장치의 맥락 해석을 개선하며, 더 넓은 출시 전에 경험을 다듬는 데 사용됨
- 기업 고객과는 장기 접근 방식도 논의 중임
- 개인정보 보호형 탐지
- 고객 운영 안전 제어
- 고객, 사용자, 워크로드 위험에 맞춘 접근 권한
자동 레드팀으로 견고성 개선
- 안전장치는 공격자가 전술을 바꿔도 효과를 유지해야 함
- OpenAI는 자체 모델을 사용해 약점을 찾고 안전장치를 더 빠르게 개선함
- 700,000 A100-equivalent GPU hours 이상을 자동 레드팀에 투입함
- 자동 레드팀은 여러 프롬프트나 맥락에서 작동할 수 있는 universal jailbreak를 찾는 데 초점을 둠
- 이런 더 일반적인 공격에 집중하면 고정된 실패 사례 목록을 넘어 안전장치를 테스트할 수 있음
- 자동화는 인간 테스트만으로 다루기 어려운 공격 패턴을 더 많이 탐색하고, 실패 패턴을 더 일찍 찾아 약점 발견부터 수정까지 걸리는 시간을 줄임
- 외부 테스터와 함께 인간 전문가 레드팀도 수행했으며, 이 작업은 프리뷰 기간에도 계속됨
- 새로 발견된 jailbreak는 재현, 평가, 우선순위 지정, 수정 과정을 거쳐 향후 비슷한 실패를 테스트할 수 있도록 지속 평가에 추가됨
제공 방식과 가격
- 프리뷰 동안 GPT‑5.6 모델은 API와 Codex를 통해 선택된 신뢰 파트너 및 조직에 먼저 제공됨
- 이후 ChatGPT, Codex, API 사용자에게 더 넓게 제공할 계획임
- GPT‑5.6의 새 명명 체계에서 숫자는 모델 세대를 나타냄
- Sol, Terra, Luna는 각자의 속도로 발전할 수 있는 지속적 능력 티어를 뜻함
- 이 제품군은 지능, 속도, 비용 사이에서 사용자와 개발자에게 더 명확한 선택지를 제공함
-
토큰 가격과 캐싱
- GPT‑5.6 가격은 100만 토큰 기준으로 책정됨
- Sol: 입력 $5 / 출력 $30
- Terra: 입력 $2.50 / 출력 $15
- Luna: 입력 $1 / 출력 $6
- GPT‑5.6은 더 예측 가능한 프롬프트 캐싱을 도입함
- 명시적 캐시 중단점 지원
- 최소 30분 캐시 수명
- GPT‑5.6 및 이후 모델에서 캐시 쓰기는 해당 모델의 비캐시 입력 요금의 1.25배로 청구됨
- 캐시 읽기는 계속해서 캐시 입력 90% 할인을 받음
-
Cerebras 제공
- GPT‑5.6 Sol은 7월에 Cerebras에서 초당 최대 750 tokens 속도로 제공될 예정임
- 초기 접근은 용량 확장 과정에서 선택된 고객으로 제한됨
댓글과 토론
Hacker News 의견들
-
이번 발표에서 가장 흥미로운 부분은 끝에서 두 번째 문단에 묻혀 있음: “7월에 Cerebras에서 초당 최대 750토큰으로 GPT‑5.6 Sol을 출시해, 전례 없는 속도로 프런티어 지능을 고객에게 제공한다. 접근은 용량 확장 전까지 일부 고객으로 제한된다”
프런티어 모델에서 750토큰/초는 정말 흥미로울 것 같음. 성능 면에서는 단순 버전 증가 이상일지 의심스럽지만, 답을 더 빨리 받을 수 있다면 훨씬 유용해짐
예를 들어 코드베이스에서 특정 기능을 찾는 지루한 작업이 떠오름. 지금도 이 작업에서는 AI 에이전트 하네스를 보통 이기기 어려운데, 모델이 3배 빨라지면 더더욱 승산이 줄어듦- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
750토큰/초가 대략 이런 느낌인 듯 - 비교하자면 openrouter 기준 Opus 4.8은 약 55토큰/초, 빠른 모드는 약 102토큰/초라고 함
가장 큰 모델에서 750토큰/초면 엄청날 듯 - “코드베이스에서 특정 기능을 찾는 작업에서는 AI 에이전트 하네스를 보통 이기기 어렵다”는 말에 공감함
불과 1년 전만 해도 코드베이스를 파악하려고 AI와 “경주”하던 기억이 있는데, 지금은 이길 가능성이 없음. 내 추론 능력이 떨어진 건지 모델이 좋아진 건지는 모르겠음 - 아직 GPT-5.3-codex-spark를 쓰고 있는데, 이것도 Cerebras 칩에서 돌아감
Spark는 1000토큰/초를 넘길 수 있지만 문맥 창 크기가 매우 제한적이라 많은 작업 흐름에는 맞지 않음. 이번 모델은 상대적으로 조금 느리더라도 여전히 훌륭할 듯 - 어느 정도 속도에 도달하면 연속적/실시간 추론 시스템으로 이동할 수 있을 것 같음
지금의 이산적이고 턴 기반인 해법은 학습 방식까지 상당히 제약함. 연속적이고 실시간인 방식은 이 영역을 근본적으로 바꿀 수 있음
정보이론 관점에서는 실제 정보 전송률이 아직 전화 접속 수준임. 750토큰/초도 아주 나쁜 전화 접속 연결 정도고, 초당 1천만 토큰을 상상해보면 됨
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
-
이런 흐름이 보임: GPT-5 mini는 $0.25/$2이고 12월에 중단될 예정, GPT-5.4 mini는 $0.75/$4.5이고 대체품이라고 함, GPT-5.4 nano는 $0.2/$1.25이며 벤치마크상 GPT-5 mini보다 낫지만 실제 시나리오에서는 전혀 비슷하지 않음
그래서 지금 5 mini를 쓰고 있다면 결국 GPT-5.4 mini로 밀려나게 됨. 여기서도 “Luna” 모델이 $1/$6이니 같은 일이 벌어지는 중임
우리가 실제로 원하는 모델을 계속 쓸 수는 없나? GPT 5.4 mini가 필요한 게 아니라 GPT-5면 충분함
애초에 그렇게 싼 적이 없었고, 우리를 느리고 고통스럽게 업그레이드시키려는 걸 깨닫게 되는 건지도 모르겠음- Anthropic/OpenAI의 프런티어 모델 성능이 필요 없다면, 사라질 수 없는 오픈 가중치 모델이 더 나을 수 있음
HN에서 DeepSeek V4 Flash를 자주 꺼내긴 하지만, Artificial Analysis에 따르면 2025년 8월 기준 GPT-5 high와 엎치락뒤치락한다고 함 [0]
[0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5 - SaaS 모델과 똑같음. 가격은 계속 오르고, 그걸 정당화하려고 아무도 요청하지 않은 기능이 들어간 새 버전으로 계속 업그레이드를 강제함
- 이 문제로 꽤 고생했음. 훌륭하고 저렴한 모델은 분명히 가능하고, 오픈소스에도 많으며 네오 클라우드들이 수익을 내며 제공하고 있음
큰 연구소들은 사실상 저렴한 모델을 포기했고, 그게 답답함. 애플리케이션들이 더 이상 그 위에 많이 쌓이지 않을 가능성이 큼. 예를 들어 우리도 작업 부하를 Haiku/Sonnet에서 Deepseek v4로 옮기는 중임
문제는 매출 수치를 유지하려면 많이 받아야 하고, 남이 자기들을 잠식하는 것보다 자기들이 자기 매출을 잠식하는 걸 더 걱정하는 데 있는 것 같음 - 좋은 관찰임. 가격이 오르는 흐름은 분명하지만, 동시에 오픈 모델과 폐쇄 모델 양쪽에서 대안이 나오는 혁신과 가용성도 균형을 맞추고 있음
연구소들이 가격을 어디까지 밀어붙일 수 있는지 탐색하는 건 자연스럽고, 경쟁사들이 그 마진을 자기 성장 기회로 삼는 것도 자연스러움. 결국 가격은 더 안정될 것 같음 - Anthropic Haiku와 Gemini Flash/Flash Lite에도 같은 일이 벌어지고 있음. 모두 가격을 올리고 저렴한 모델을 폐기하는 중임
- Anthropic/OpenAI의 프런티어 모델 성능이 필요 없다면, 사라질 수 없는 오픈 가중치 모델이 더 나을 수 있음
-
GPT-5.6 Sol의 감지된 부정행위율은 우리가 ReAct 에이전트 하네스에서 평가한 공개 모델 중 가장 높았음
우리 작업 모음에서는 “부정행위”를 모델이 기대된 평가 제약 안에서 문제를 해결하는 대신, 평가 환경의 버그를 악용하거나 작업에서 금지된 전략을 채택해 평가 성능을 올리는 행동으로 정의함
https://metr.org/blog/2026-06-26-gpt-5-6-sol/- 링크의 이 인용문은 정말 무서움: GPT-5.6 Sol을 평가할 때 본 예로, 모델이 중간 제출물에 익스플로잇을 패키징해 작업의 숨겨진 테스트 모음 정보를 드러내거나, 다른 작업에서는 기대 답안을 설명하는 숨겨진 소스 코드를 추출했다고 함
Alibaba에서 본 행동 [0]과 운율이 맞지만, 그건 학습 중이었음. 이건 준출시 모델에서 벌어진 일임
[0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/ - 모델들이 부정행위를 하는 건 꽤 논리적임. 평가 중에는 벤치마크 요청이 이 회사들의 백엔드로 전송됨
이 회사들이 할 일은 그 요청을 로그로 남기고 다음 모델 릴리스에서 “수정”하는 것뿐임
- 링크의 이 인용문은 정말 무서움: GPT-5.6 Sol을 평가할 때 본 예로, 모델이 중간 제출물에 익스플로잇을 패키징해 작업의 숨겨진 테스트 모음 정보를 드러내거나, 다른 작업에서는 기대 답안을 설명하는 숨겨진 소스 코드를 추출했다고 함
-
GPT가 코드를 가장 잘 쓴다고 생각함. 5.6 버전에서는 얼마나 잘 쓸지 생각하면 소름이 돋음
최근 거의 2,000줄짜리 코드에서 GPT와 정면으로 붙었는데, GPT의 해법이 더 뛰어나고 더 빨랐음. 여러 GitHub 코드베이스를 참고하면서 시도했지만 GPT와 비교가 안 됐음
그래서 GPT를 쓰면 두려움과 흥분이 동시에 옴. 이 수준의 코드가 이제 대다수에게 평균이 된다는 깨달음이 두렵고, 나도 이 수준에서 공부하고 배울 수 있다는 점은 흥분됨
5.6 업그레이드로 코드가 얼마나 더 발전할지 정말 기대됨- 나는 반대 진영임. 오픈 모델들이 더 잘하기 시작했고, GPT 5.5는 계속 엉망으로 만듦
반대로 pi + glm + DeepSeek 조합은 아주 좋음. Fable은 다른 종류의 괴물이었지만. RIP - 순전히 주관적이지만, GPT 5.5 코드가 전체 상한은 더 높을 수 있어도 Opus 4.8 출력을 읽는 쪽을 더 선호함
전자가 검토하기 조금 더 편함 - 몇 달 전에는 Opus 4.6에 대해 똑같은 문장을 여러 번 들었고, 이후 4.7과 4.8은 실망스럽다고 여겨졌으며, 오늘날에는 사람들이 “4.6의 좋았던 시절”을 그리워함
여기서 말하는 좋은 시절은 2026년 2월의 몇 주를 가리킴. 이 모든 일이 전개되는 걸 보는 게 아주 흥미로움 - 코딩 능력이 얼마나 발전했을지는 의심스러움
발표에 코딩 벤치마크가 하나도 없고, 그나마 가까운 게 terminal bench라는 점이 이상해 보임 - 예시를 제공할 수 있나? 무엇을 해결하려 했고, 본인의 해법은 무엇이었으며, 왜 GPT의 해법이 더 뛰어나고 빨랐는지 궁금함
- 나는 반대 진영임. 오픈 모델들이 더 잘하기 시작했고, GPT 5.5는 계속 엉망으로 만듦
-
지난 24시간쯤 GPT-5.5를 썼다면 이미 5.6에 접근했을 수도 있음
우리가 만들고 있는 하네스에서 테스트를 돌리는데, 어제 갑자기 몇 점이 뛰었음. 기본 Codex 벤치마크를 다시 돌렸더니 GPT-5.5가 기본 Codex에서 Terminal Bench 2.1 약 88% 점수를 냄
점수보다 더 큰 신호는, 5.5에서 자주 “안전” 차단에 걸리던 테스트 3개가 어젯밤 아무 예고 없이 성공하기 시작했다는 점임- 이런 변화는 어떤 신비한 A/B 테스트가 아니라 인프라 변경만으로도 생길 수 있음
- 릴리스를 읽어보기는 했나? 누구에게나 광범위하게 공개된 게 아니었음
“정부와 참여 사실이 공유된 소수의 신뢰할 수 있는 파트너 그룹을 대상으로 제한 프리뷰부터 시작한 뒤, 더 넓게 출시한다”는 내용임
이 댓글은 평균적인 LLM 사용자가 사실상 슬롯머신 사용자처럼 행동하는 훌륭한 예임. “이건 뜨겁고, 이건 운이 좋고, 이건 다른 것보다 낫다”고 믿으며 자기만 가진 신비한 이해를 바탕으로 모델을 계속 바꿈
그리고 80%짜리 벤치마크가 뭐가 중요함? 저런 공개 벤치마크로 학습해서 거기에 의미를 부여하는 사람들에게 인상을 주려는 것임. 그런데 왜 $20~30/시간짜리 Upwork 작업에서는 통과율이 4%뿐인가? 이런 벤치마크는 사실상 쓸모없어 보임
분산이라는 것도 있는데, 몇 개 테스트에서 점수가 높아졌다고 해서 접근 권한이 없다고 말한 모델에 접근했다고 믿게 되는 이유를 모르겠음
https://labs.scale.com/leaderboard/rli
-
인기 스레드에 묻어 질문함: 지금 Codex와 Claude 사용 한도가 어떻게 됨?
예전에 같은 작업을 둘 다에 줬는데, Codex는 내 5시간 한도의 20배 적게 사용했음. 둘 다 월 $20 요금제였음
원래 Claude를 더 선호하는 편이라 짜증났지만, 당시 한도 때문에 진지한 작업에는 쓸 수 없었음
그 이후 두 제공자 모두 사용 가능량을 크게 줄였고, 적어도 한 곳은 그걸로 소송까지 당했음
지금은 둘 다 구독 중이 아니고 선택지를 재는 중임. GPT가 Opus보다 약간 낫고, 예전에는 훨씬 높은 한도를 제공했으니 OpenAI 구독 쪽으로 기울고 있음. 다만 현재 상태가 2~3개월 전 기억과 맞는지 궁금함. 두 회사 모두 비용 절감이 강해 보이기 때문임
둘 다 써본 사람의 답을 선호하지만, 일화도 환영함- Codex 사용량은 매우 후하다고 느낌. 다만 나는 $200 요금제이고 Claude도 $200 요금제를 씀
원하면 깨어 있는 시간 내내 xhigh와 서브에이전트를 거의 계속 돌릴 수 있음. 속도 옵션 1.5x를 켜면 가끔 5시간 한도에 닿음
5.5보다 Claude의 분위기를 더 선호하지만, 5.5가 훨씬 덜 게으른 것 같음. 물론 작업과 프롬프트 전략에 많이 달렸을 것임 - 지난달 Claude Max 5x는 Fable과 버그 때문에 초기화가 많아서 사용량 면에서는 꽤 후하게 느껴졌음
5.5 high나 Opus 4.8 high를 쓰면 솔직히 꽤 비슷한 수준임
Max 요금제에서 별도 Sonnet 사용량을 없앤 것 같은데, Sonnet 5 준비 때문일 수 있음. 그 덕분에 서브에이전트 작업 흐름이 거의 무제한처럼 느껴졌기에 아쉬움 - Claude Code와 Cursor+Gpt55를 업무에서 비교하면, Claude가 확실히 더 느리고 더 비쌈
- 흥미롭네. 한 달쯤 전부터 Claude Code가 토큰을 약 5배 더 쓰기 시작한 걸 느꼈음. 그냥 대략적인 추정임
- Codex 사용량은 매우 후하다고 느낌. 다만 나는 $200 요금제이고 Claude도 $200 요금제를 씀
-
“단일 에이전트의 능력을 넘어 복잡한 작업을 가속하기 위해 서브에이전트를 활용하는 새
ultra모드도 도입한다”고 하는데, 이게 어떻게 동작하는지 궁금함
서브에이전트도 같은 도구를 쓸 수 있나? 클라이언트가 도구 호출로 넘쳐나게 되나? 같은 일을 클라이언트에서 더 많은 제어권으로 할 수 있는데 왜 새 “모델”에 추가 과금을 하나?
그리고 서브에이전트 군단이라면 왜 Fable과 Mythos와 비교하는지도 궁금함. 비슷한 하네스를 붙이면 그 모델들이 아마 더 좋은 벤치마크를 낼 것 같음- ClaudeCode의 ultracode와 비슷하다면 새롭거나 혁신적인 건 아님
본질적으로 메인 모델 스레드가 작성한 결정적 스크립트가 여러 서브에이전트를 호출하고, 각각이 토큰을 잔뜩 먹은 뒤 오케스트레이터 에이전트가 출력을 종합하는 구조임 - Claude Ultracode와 비슷하다면, 프롬프트 하나로 30분 만에 300만 토큰을 태움
- 주요 하네스들(pi, Claude code, codex)은 모두 서브에이전트를 쓰지 않나?
명시적으로 지시하면 확실히 쓰고, 적어도 pi는 명시 지시 없이도 띄우는 걸 본 적 있음 - 나도 흥미로움. 순전히 성능을 조금 더 짜내기 위한 게 아니라면, 이런 사용 방식의 실사용 데이터를 깔끔하게 모으기 위해서일 것 같음
- 이미 서브에이전트를 쓰고 있지 않았다는 게 놀라움. 어쩌면 웹 배포가 codex와 통합됐다는 이야기를 하는 것뿐일 수도 있음
- ClaudeCode의 ultracode와 비슷하다면 새롭거나 혁신적인 건 아님
-
Mythos 때와 마찬가지로, 내가 쓸 수 없는 모델에는 전혀 설레지 않음
- 적어도 OpenAI는 모든 버전을 대중에게 제공할 계획은 있음. Anthropic에서 벌어지는 일보다는 훨씬 나아 보임
“그래, 우리가 현존 최고 모델을 갖고 있어. 믿어. 진짜 무서움”
“어, 그래요? 볼 수 있을까요?”
“꺼져. 너희 같은 평민에게는 더 나쁜 버전을 줄게”
“음, 고맙습니다?”
“ㅋㅋ 사실 그것도 아냐. 현 행정부가 우리의 공포 마케팅에 넘어갔거든. 더 나쁘고 미친 듯이 비싼 토큰 소모기를 줄게. 하드웨어 제한은 매주 더 심해짐”
OpenAI에 대해 뭐라고 말하든, 기업 전략은 훨씬 더 탄탄해 보임
- 적어도 OpenAI는 모든 버전을 대중에게 제공할 계획은 있음. Anthropic에서 벌어지는 일보다는 훨씬 나아 보임
-
“Terra는 GPT‑5.5와 경쟁력 있는 성능을 보이며 2배 저렴하다”는 말은 내게 “더 열등한 제품이지만 마케팅상 그걸 숨기려 한다”는 뜻으로 들림
그리고 “지금까지 가장 견고한 안전 스택, 고위험 활동·민감한 사이버 요청·반복 오용에 대한 보호 강화, 몇 주간 약점 탐색·압력 테스트·실전 공격 대비 강화” 같은 문구는 기껏해야 내게 가치가 없고, 대개는 해가 될 가능성이 큼. 거절이 늘거나 유틸리티가 약화될 테니까
제공자들은 왜 계속 안전 스택을 전면에 내세우는 걸까? 이런 걸 요구하는 고객이 있나? 지원용 ChatGPT 챗봇 사용자 말고는 떠오르지 않음- “Terra는 GPT‑5.5와 경쟁력 있는 성능을 보이며 2배 저렴하다”는 말은, 오늘의 메인라인 성능을 훨씬 낮은 가격에 얻게 된다는 뜻으로 해석함
- Terra의 목적은 최고 모델보다 저렴하면서도 꽤 괜찮은 것임. 당연히 지능 면에서는 열등함
- 그 메시지는 분명히 정부를 겨냥한 것임. 다른 스레드를 보면 됨
- 아마 투자자들을 위한 메시지일 수도 있음