ChatGPT 5.5 Pro를 최근 사용한 경험

▲

GN⁺ 4시간전 | parent | ★ favorite | on: ChatGPT 5.5 Pro를 최근 사용한 경험(gowers.wordpress.com)

Hacker News 의견들

5.5 Pro를 잠깐 써본 경험과 맞아떨어짐. 처음으로 지루하지만 명확한 문제를 제대로 풀도록 몰아갈 수 있는 LLM이라는 느낌이 들었음
여전히 실수가 많고 아주 빡빡하게 안내해야 하지만, 다른 모델과 달리 자기 추론을 따라가며 스스로 수정하는 능력이 꽤 좋음
단점은 비용임. 토큰을 미친 듯이 쓰고 토큰 단가도 비싸며, 큰 문제를 높은 정확도로 풀게 하려고 하위 에이전트 흐름을 쓰면 더 비싸짐
대규모 문제에서는 문맥 제한 때문에 훨씬 느려지기도 함. 각 부분마다 문맥을 다시 찾아야 하고, 정확도를 위해 다음 작은 부분으로 넘어가기 전에 문맥을 지우거나 더 많은 에이전트를 띄워야 함
수학 증명처럼 문제와 증명 이해에 필요한 추가 문맥이 작고 “중요한” 문제라면 괜찮을 수 있지만, 큰 코드베이스의 코드 정확성 확인이나 미묘한 가정 검증에는 분명한 한계가 있음
그래서 5.5 Pro를 무제한으로 쓸 수 있는 운 좋은 사람이 아니라면, 이런 모델의 인상적인 능력이 프로그래머의 일상에 스며드는 데는 시간이 좀 걸릴 것 같음
긴 글이고 기술적인 수학 부분과 철학적 부분이 섞여 있는데, 특히 인상적인 대목은 박사 초년생 훈련이 더 어려워졌다는 점임
예전에는 비교적 순한 연구 문제를 주며 시작하게 할 수 있었지만, LLM이 그런 “순한 문제”를 풀 수 있다면 더 이상 그 선택지가 없음
수학에 기여하는 하한선이 “아직 아무도 증명하지 않았고 흥미로운 것”이 아니라 “LLM이 증명하지 못하는 것”이 됨
다만 훈련은 여전히 기초에서 시작해야 함. 모두가 작은 정수 덧셈부터 배우고, 계산기는 오래전부터 그걸 실수 없이 해왔음
글의 다른 부분처럼 어려운 문제를 직접 풀어야 문제 해결 과정 자체에 대한 통찰이 생기고, 이미 어려운 문제를 풀어본 사람이 AI를 더 잘 활용할 가능성이 큼
코딩은 사람들이 돈을 벌기 위해 쓸 물건을 만드는 일이므로 AI로 더 빨리 납품하고 계속 고용될 수 있지만, 수학에서도 같은 식으로 볼 수 있는지는 잘 모르겠음
LLM이 주요 아이디어와 기술 작업을 다 하고 수학자는 유용하게 안내만 했다면, 그것을 수학자의 큰 업적으로 볼지는 의문임
- 어려운 문제를 직접 풀면 다른 문제를 더 잘 풀게 되는 것뿐 아니라, 그 문제 자체를 훨씬 더 깊이 이해하게 됨
  기업에서도 사람들이 LLM에 일을 맡기면 결과가 항상 나쁘지는 않고 때로는 받아들일 만하지만, 그건 그 사람의 작업이 아님
  그래서 작성자는 남들보다 그 일을 더 잘 알거나 이해하지 못하고, 소유하지도 설명하지도 못함. 말 그대로 통과 지점일 뿐이라 가치가 사라짐
- 오히려 그것도 큰 업적으로 봐야 할지도 모름
- 두 핵심을 약간 놓친 것 같음. 기초부터 배워야 하는 건 맞지만, 어느 시점, 예컨대 박사를 시작할 때는 기초 학습이 아니라 연구를 해야 함
  LLM이 “쉬운 연구”를 풀어버리면 그 과정이 더 어려워짐
  어린 사자가 다른 어린 사자와 싸우고 놀며 나중의 사냥을 배우는데, 갑자기 TikTok이 생겨 더 이상 놀지 않는다면 첫 사냥은 훨씬 어려워질 것임
  AI로 더 빨리 납품해 돈을 벌 수 있다는 것도 맞지만, 좋은 코더가 되는 문제와는 다름. 좋은 코더가 되지 못하면 계속 나쁜 바이브 코더로 남게 됨
- 정말 그게 중요한가? 그리고 철학적으로 이전의 컴퓨터 보조 증명과 그렇게 다른가?
Baez의 흥미로운 대목은 생각과 깊은 아이디어의 가치가 어디서 오는가라는 질문임
그 가치가 주로 희소성, 즉 어떤 아이디어를 갖기 어렵다는 사실에서 온다면 아이디어 제조가 자동화될 때 가치가 급락할 수 있음
하지만 가치가 아이디어의 효용, 즉 그 아이디어가 가져오는 이익에서 온다면 이야기가 달라짐. 더 좋은 아이디어를 더 많이 만드는 것이 오히려 더 나을 수 있음
수학자들은 희소성 경제에서 풍요의 경제로의 전환에 적응해야 할지도 모름
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
- 수학자에는 세 부류가 있음. 첫째는 순수한 문제 해결자이고 Tao가 대표적이며, 이들의 화폐는 흥미로운 문제와 그 해법임
  둘째는 순수한 이론 구축자이고 Conway가 대표적이며, 정리보다 이론과 아이디어에 관심이 많고 수학의 영토를 넓히려 함
  셋째는 응용수학자이고, 수학을 목적을 위한 수단으로 보며 수학 밖의 문제를 수학으로 풀고 싶어 함
  첫 번째 부류인 문제 해결자가 AI에 가장 즉각적으로 위협받는 듯함. 다만 아직 AI는 새 추측을 찾기보다 문제 풀이에 더 강함
  두 번째 부류인 이론 구축자는 더 먼 미래에 위협받음. 지금까지 AI가 새롭고 흥미로운 수학적 아이디어를 내는 능력은 제한적이고, 그런 걸 어떻게 훈련해야 하는지도 아무도 모름
  세 번째 부류는 AI에서 가장 많은 이익을 얻을 수 있음. AI가 수학적 질문에 답해주면 수학에 쓰는 시간을 줄이고, 수학으로 풀고 싶었던 외부 문제에 더 집중할 수 있음
- 새로운 것을 밀어붙이는 사람은 항상 같은 온라인 평론가들인 것 같음. 뛰어난 학자라 해도 마찬가지임
  반면 Wiles와 Perelman은 온라인을 멀리하고 진짜 문제를 풀었음
물리학 교수로서 Gemini를 논문 점검에 자주 쓰는데, 강력한 도구임
며칠 동안 찾지 못했던 복소 수식의 허수 단위 누락 같은 사무적 오류를 찾아냈고, 놓쳤던 개념과 아이디어 사이의 연결도 자주 짚어줌
하지만 개념적 오류도 자주 내며, 해당 주제를 잘 알기 때문에 알아챌 수 있음. 예컨대 3차원 Clifford 대수에서 이중벡터의 지수와 의사스칼라의 지수를 반복해서 혼동함
ChatGPT 5.5 Pro가 출판 가능한 논문을 만들 수 있다는 건 알겠지만, 지금까지 Gemini를 본 바로는 LLM을 논문과 책을 순식간에 읽는 매우 효율적인 학생으로 보되 여전히 많은 지도가 필요한 대상으로 보는 편이 나음
- 위 경험은 GPT-5.5 Pro와 더 비슷한 Deep Think 모드가 아니라 “일반” Gemini 3.1 Pro를 쓴 것으로 보임. 일반 3.1 Pro는 한 단계 낮고 실수가 잦은 편임
  게다가 3~4년 전만 해도 고등학교 수학도 안정적으로 못 풀던 LLM의 발전이 곧 멈출 이유는 없음
  CritPt 벤치마크는 미발표 연구 수준 물리 문제로 구성되어 있으니 추적해볼 만함
  https://critpt.com/
  최전선 모델도 아직 해결과는 거리가 멀지만 발전은 빠름. o3 high는 1.5년 전 1.4%, GPT 5.4 xhigh는 23.4%, GPT-5.5 xhigh는 27.1%, GPT-5.5 Pro xhigh는 30.6%임
  https://artificialanalysis.ai/evaluations/critpt
- “멘토링”이라는 표현은 의인화이고, 무의식적으로 모델이 배울 것처럼 생각하게 만듦. 실제로는 배우지 않으며, LLM처럼 똑똑해 보이는 무언가가 배우지 않는다는 점을 계속 기억하는 건 인간에게 꽤 어려움
  나도 같은 실수를 자꾸 함
  사용자 지정 프롬프트와 지시로 LLM의 기억을 수동 관리해야 하는 것도 짜증나는 이유 중 하나임
  장기 기억 기능은 아직 제대로 써보지 않았지만, 프롬프트보다 더 신뢰하기 어려울 것 같음. 1~2년이면 너무 많은 것이 바뀌어서 그 “기억”도 여러 번 다시 만들어야 할 가능성이 큼
- LLM은 출력에 대한 기대치가 있을 때 가장 잘 작동함. 대체로 정답의 형태를 알고 있으면 줄 단위가 아니라 감각적으로 평가할 수 있음
  기대치가 없으면 모든 것을 액면 그대로 받아들여야 하고, 그 순간 기계의 자비에 맡겨짐
- 물리학 교수는 아니지만, 시니어 엔지니어 영역에서 도구를 쓰는 방식과 비슷함
  기본기를 가져와서 성급한 에이전트를 sanity check하고, 다른 사람들도 같은 일을 할 수 있도록 그 기본기를 심어주려 함
  결국 이 방식이 전체가 작동하는 유일한 길처럼 느껴짐. 언젠가 회사들이 감당 가능한 더 작은 로컬 모델로 옮겨가는 경우를 제외하면 그렇음
- LLM은 장밋빛이고 그럴듯하게 작업을 제시하면서 계속하면 더 해주겠다고 말함
  맞을 확률과 절벽에서 뛰어내리게 할 확률이 반반인데, 여행 자체는 항상 아름다운 5성급처럼 포장됨
  오류를 찾아 LLM에 말하면 대부분 더 나빠짐. LLM은 기쁘게 해주려 하면서 사과하고 방향을 바꾸기 때문임
  그런 상황이 되면 보통 세션을 저장하거나 취소하고 처음부터 다시 시작하거나, 과감하게 방향을 틀게 됨
  내게 Gemini는 가장 예측하기 어려운 LLM이고, 전체적으로는 GPT가 가장 잘 맞음
  최근 Gemini는 같은 질문에 두 가지 다른 답을 줬음. 일부러 새 채팅을 열고 같은 프롬프트를 붙여 넣어 본 테스트였음
  코딩 영역에서는 추론 기능이 큰 도움이 되지 않음. LLM의 설명은 매우 고수준이고 형식적으로는 맞아 보이기 때문임
  LLM 때문에 오히려 구글링을 더 하게 됨. 결국 버튼을 누르기 전에 내가 먼저 검증해야 할 무언가를 누군가 만들어내는 셈이고, 그 반짝이는 버튼이 작동할지 지옥으로 안내할지는 잠시 뒤에야 알 수 있음
수학자가 LLM과 긴 대화를 하면서 유용하게 안내했지만 기술 작업과 주요 아이디어를 LLM이 다 했다면, 그걸 수학자의 큰 업적으로 볼지는 문화적 선택임
현재 수학 문화에서는 낯설게 느껴지는 게 자연스럽지만, 이미 다른 분야나 많은 개인은 인간에게 큰 업적이 있었다고 볼 수 있음
인간-AI 협업이 최고의 결과를 내는 동안에는 인간의 의미 있는 기여가 있고, 깊은 전문가이자 숙련된 LLM 조련자는 큰 기여를 할 수 있음
진짜 변화는 순수 AI가 인간과 인간-AI 협업을 모두 이길 때 옴
- 자동차 경주에서 성능의 대부분은 차에서 나오지만 우리는 운전자를 칭찬함. 두 차의 성능이 비슷할 때 운전자의 뛰어남이나 실수가 차이를 만듦. 승마도 비슷함
  수학에서도 인간이 LLM을 올바른 길로 이끌고, 특정 문제나 다른 문제로 향하게 할 수 있으니 어느 정도 칭찬받을 만함
  차를 만든 팀, 말을 돌본 사람, AI를 만든 팀이 더 큰 칭찬을 받을 수도 있지만, 우리는 보통 가장 눈에 띄는 한 사람에게 더 관심을 둠
- 이 논점은 AI 이미지와 코미디를 떠올리게 함
  이미지가 사람들을 웃긴다면, 프롬프트를 넣은 사람이 제작 작업 대부분의 공을 가져가지는 못하겠지만, 초기 아이디어와 여러 초안 중 특정 결과를 고른 취향에 대해서는 공을 받을 수 있음
  수학자가 LLM이 “한” 놀라운 결과를 얻었다면, 프롬프트를 주고 안내한 점에 대해 어느 정도 공을 받을 수 있다고 봄
  다만 첫 번째 사람은 예술가가 아니라 코미디언이라고 부를 수 있을지 몰라도, 그 수학자는 여전히 수학자인지 아니면 다른 무언가인지가 문제임
- 누군가 프롬프트를 찾았거나 대화를 자동화해서 열린 수학 문제를 전부 훑었더라도, 유용한 결과를 만들고 아무에게도 해를 끼치지 않았다면 가치 있는 인간 활동이고 보상받아야 한다고 봄
  다른 수학자들에게 주는 보상만큼 주면 됨. 물론 억만장자 수학자가 많을 테니 그 보상이 꽤 크겠지만
- 수학자의 큰 업적은 아닐 수 있지만, 그래도 큰 결과임
“수학을 하는 목적이 어떤 종류의 불멸성을 얻는 것이라면, 그게 더 이상 오래 가능하지 않을 수도 있다”는 문장이 조금 슬펐음
- 어제 YouTube에서 영화 ‘21’(2008)을 무료로 봤음
  영화 도입부에는 MIT 캠퍼스를 누비는 학생들과 고등교육이 가져오는 약속과 지위가 가득함
  AI에 얼마나 많은 것이 넘어갈지를 깨닫자 비슷한 슬픔이 들었음
  [0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
- 그 문장이 에세이에서 가장 흥미로웠음. 학계 수학 커리어를 바로 접었던 때가 떠올랐고, 19~20살 때는 내가 그 분야에서 세계적 수준이 될 수 없다고 생각했음. 실제로도 맞았음
  다음 생각은 “나는 무엇을 잘하지?”였고, 그 안에는 적어도 “무엇에서 세계적 수준이 될 수 있을까?” 혹은 “아주 잘할 수 있을까?”가 들어 있었음
  내가 어떤 결과를 찾아 이름 붙이고 나보다 오래 남게 해서 수학적 불멸성을 얻을 만큼 충분하다고 생각한 적은 없지만, 그랬다면 이런 나쁜 소식이 비슷한 충격을 줬을 수도 있음
  다만 경계에서는 전제에 동의하지 않음. 얼마나 많은 증명 보조기나 클러스터 컴퓨팅을 쓰든, 리만 가설을 증명하는 팀이나 사람은 유명해질 것임. 적어도 수학계에서는 유명해짐
- 그렇게 실망할 일인지는 모르겠음. 위대한 수학자 대부분이 실제로 불멸성을 얻기 위해 했다고는 생각하지 않음
  아마 많은 이들은 수학→물리→공학으로 이어지는 간접적 실용 응용을 노렸거나, 그냥 수학의 아름다움과 지적 즐거움 때문에 했을 것임
  AI가 실용 응용까지 가져갈 수도 있지만, 나머지 측면은 여전히 누릴 수 있음
- 모든 종류의 인간 성취에 대해 같은 말을 반복해보면 됨
대학원생으로서 이 글은 슬펐음. 내 작업이 나 자신을 넘어, 이 우주적 경험에서 주어진 제한된 시간 너머로 말해줄 것이라고 믿어왔음
그런 불멸성의 감각은 대학원에 뛰어들 때 기대했던 작고 무형의 보너스였는데, AI 때문에 스스로 덜 가치 있게 느껴짐
- 훨씬 더 뒤를 지나온 사람으로서, 그런 생각은 내려놓는 편이 좋다고 조심스럽게 말하고 싶음. 뛰어나고 야심 있는 사람들이 그 생각 때문에 우울에 빠지는 걸 너무 많이 봤음
  그 일을 할 수 있기 때문에 그 일을 할 가치가 있는 것임. 사랑하기 때문에, 그리고 미스터리를 사랑하기 때문에 하길 바람
  그 일을 할 수 있는 매 순간을 즐기면 좋겠음. 만족을 주지 않는 일에 시달리는 사람들과 달리 이런 일을 할 수 있는 큰 행운에서 기쁨을 찾길 바람
  때로는 지루하지만, 때로는 그 자체로 믿을 수 없을 만큼 보람 있음
  다만 영원한 영광의 가능성을 위해 일하지는 말아야 함. 그런 것은 더 이상 존재하지 않음
- 충분히 가치 있음. 대학원에서 기술을 갈고닦으면 오랫동안 어려운 문제와 씨름하지 않은 사람보다 이 AI들을 더 잘 지휘할 수 있게 됨
- “지능을 다른 모든 인간적 자질보다 높게 평가한다면, 힘든 시간을 보내게 될 것이다.” - Ilya Sutskever, 2023
- 이 현실에는 LLM이 스스로 알아낼 수 있는 것보다 훨씬 더 배울 것이 많음. 특히 진실, 윤리, 도덕에 관해서는 더 그렇고, 이 현실을 떠날 때 결국 중요한 것은 그것뿐임
  그보다 더 큰 도전은 없음
- 용기는 이상한 과학적 돌파구보다 시간을 더 잘 초월한다고 느낌. 그런 돌파구는 대개 한 사람에게 귀속되지만, 뿌리는 이름 없는 “덜 중요한” 사람들에게서 온 경우가 많음
동유럽의 이론컴퓨터과학 조교수로서, 수학계의 큰 이름들이 비싼 장시간 추론 모델에 쉽게 접근하는 것이 늘 조금 부러움
현재 학술 예산으로 Pro를 내는 건 여기서는 현실 밖의 일임. 예산은 용도가 제한되어 있고 소프트웨어 결제는 들어맞는 항목이 거의 없음
사실상 새 연구비를 신청하고, 그 규정이 큰 소프트웨어 지출을 허용하며, 반AI 심사자를 만나지 않기를 바라야 함. 그런 절차는 최소 1년 걸림
엎친 데 덮친 격으로 Microsoft가 Copilot의 개인 및 학술 사용을 조이면서 최근 Claude Opus 접근도 막혔음
ChatGPT 5.5 Plus는 새 연구 주제를 깊게 파고들기에는 충분하지 않아 보였고, 직접 해봤음
- @NotOscarWilde 이메일을 남기면 연락하겠음. OAI에서 일하고 있고, 몇 달간 5.5 Pro를 써볼 수 있게 Pro 계정을 마련해줄 수 있음
- 우리 대학에서는 최근 공동 AI 서비스가 도입되기 전까지 모두가 AI 구독료를 자기 돈으로 냈음
  그 서비스를 세팅하는 데 2년이 걸렸고 gpt-oss-120b만 제공해서, 여전히 모두가 다른 서비스를 씀
  그래도 어떤 관리자는 대학 웹사이트 곳곳에 “AI”라는 단어를 뿌릴 수 있고, “이미 AI가 있다”는 이유로 AI 구독 요청을 거절할 핑계가 생김
- 가장 유리한 위치에 있는 사람들이 계속 보상을 거둬들이기 가장 좋은 위치에 있다는 전형적 사례임
  가난한 사람과 부자가 부츠를 사는 예가 있음. 가난한 사람의 부츠는 닳아서 계속 교체해야 하지만, 부자의 부츠는 더 좋은 품질이라 여러 해 감
  시간이 지나면 가난한 사람이 부츠에 더 많은 돈을 쓰게 됨
- OpenRouter는 구독 없이 토큰 단위 과금만 가능하고, Opus 4.7과 GPT-5.5를 포함한 최전선 모델 대부분을 제공함
  아껴 쓰면 보통 꽤 저렴하게 나옴
- ChatGPT 5.5 Pro 접근은 월 100달러로 가능한 것으로 아는데, 그 위치와 지역에서 감당하기 비현실적인 수준인지 궁금함
  대학이 내주지 않더라도 본인 목표를 위해 쓰고 싶을 것 같음
  비난하려는 게 아니라, 그 지역 연구자 대부분에게 완전히 닿을 수 없는 비용인지 궁금함
약 10년 전 Seattle의 AMS-MAA 공동 회의에서 Tim Gowers가 강연하며, 100년 뒤에는 인간이 더 이상 연구 수학을 하지 않을 것이라고 예측하는 걸 봤음. 지금은 일정을 조정했을지 궁금함
당시에는 MathOverflow처럼 작동하는 자연어 검색이 핵심적으로 빠진 도구라고 생각했음. 문제나 아이디어를 자신이 이해한 대로 설명하면, 자신의 경험이나 어휘 밖에 있는 관련 문헌을 찾아주는 방식임
- Teichmüller도 독일이 2차 세계대전에서 이길 것이라 생각하고 동부전선에 자원했음
  뛰어난 수학자라고 해서 맞는 것은 아님. 사실 수학자들은 꽤 기이한 이론을 많이 갖고 있음
올가을 고등교육에 들어가는 학생들의 압도적 다수는 연구를 한다 해도 4~5년 뒤에야 과학에 크게 기여할 수 있음. 박사 과정이 본격화되는 시점까지 보면 현실적으로 6~7년임
5~7년 전의 모델 수준을 보면, 그때는 박사의 실존적 위협 같은 건 레이더에도 없었음. 지금 박사를 마치는 사람들이 이 도구를 진정으로 활용할 수 있는 첫 세대임
이제 연구자가 되려는 학생들이 패배감을 느껴 그만두거나, AI 모델에 완전히 기대어 일을 시키면 문제가 생김
박사 자리의 자금 지원도 마찬가지임. “연구자 양성”을 위한 지원에서 “결과 달성”을 위한 지원으로 옮겨가면, 박사생에게 쓰이던 돈이 컴퓨팅 자원으로 흘러갈 수 있음
냉소적으로 보면, 어떤 연구자는 학생 몇 년을 훈련시키는 것보다 컴퓨팅에 돈을 써서 훨씬 더 많은 논문을 뽑아낼 수 있음
흥미로운 시대지만 불확실성이 너무 큼. 지금 무엇을 할지 결정해야 하는 학생들이 안타깝게 느껴짐
- 이런 일은 이미 일어나고 있고 더 빨라질 것임. 대학원 밖에서도 이미 학위를 살 수 있음
  특히 더 부드러운 분야에서는 박사 논문과 좋은 출판 이력을 지금도 살 수 있음
  학계가 아니라 산업계에 있다면 승진도 살 수 있음. 고용주가 모든 직원에게 AI 예산을 준다면, 승진할 때까지 조용히 자기 돈으로 그 예산을 두 배로 늘리고, 승진 후에는 멈춘 뒤 더 큰 월급을 누리면 됨
- 박사과정생들은 이미 AI 모델을 써서 일을 시키고 있음. 내가 아는 박사 후보 대부분은 월 200달러짜리 Claude Max 플랜을 최대한 활용함
  이전에는 할 수 없던 연구를 할 수 있게 된 것이 보임
  AI 사용이 코드를 직접 짜는 능력을 어느 정도 약화시킨 것도 보이지만, scikit-learn이나 Pytorch로 머신러닝 모델을 짜는 것과 비슷하게 봄
  밑바닥 세부는 추상화되고 AI 없이는 많이 못 하겠지만, 그 연구는 실제로 그 사람 때문에 일어나는 것이며 AI만으로는 일어나지 않았을 것임
- 지금까지 기관들이 박사과정생에게 돈을 펑펑 준 것도 아님
  나중에 붙은 예산 항목에 가까운 그 돈이, 비싸고 다른 절차를 위해 털어갈 만큼 매력적인 표적은 아님