많은 사람들이 “LLM은 진정한 창의성을 가질 수 없다”고 단정하는 걸 보면 놀라움
단순히 “훈련 데이터에 없으니 불가능하다”고 말하는 건 부족함. 이미 수많은 반례가 있음
그렇다면 왜 어떤 새로운 과제는 가능하고, 어떤 건 불가능하다고 생각하는지 근거가 필요함
만약 ‘새로움’이 연속선상에 있다고 인정한다면, 어디서 선을 긋는지, 어떤 증거가 나오면 생각이 바뀔지 궁금함
스스로 질문에 답해보자면, LLM의 근본적 한계에 대한 논리적 주장도 있음
인간 데이터를 학습하니 인간의 한계를 모방함
경험에서 배우지 않음
하지만 반론도 있음. 수학 올림피아드 금메달을 딴 모델을 보고 첫 번째 주장은 버렸음
또 RL과 메모리 추가로 두 번째 한계도 극복 가능할 듯함
어쩌면 대형 LLM이 인간처럼 정보를 내재화할 수도 있음
관련 예시: METR 블로그 글
LLM은 본질적으로 무엇이든 생성할 수 있음. 다만 자신이 만든 걸 이해하지 못함
인간은 “진정한 새로움”을 너무 거창하게 정의함 — 예를 들어 초전도체 공식이나 신약 개발 같은 것
하지만 사실 신발끈 묶는 새로운 방법도 ‘형식적’으로는 새로움임
LLM은 이런 사소한 문제들을 무수히 해결할 수 있지만, 인간이 감탄할 만큼 의미 있는 혁신은 아닐 수 있음
macOS에서 앱 창을 ‘투명하게 보는’ 유틸리티를 만들고 있었는데, Claude Code가 ScreenCaptureKit을 쓰지 말라고 제안했음
성능 오버헤드를 이유로 정확히 거부하고 완전히 다른 접근을 제시했음
대단히 새로운 문제는 아니지만, 꽤 창의적인 해결책이라 놀라웠음 프로젝트 이미지
LLM이 새로운 곱셈 문제를 풀 수 있는 이유는, 훈련 중 수많은 곱셈 예시를 보고 압축된 추상 전략을 학습했기 때문임
단순 암기가 아니라, 신경망 내부 회로로 일반화된 연산을 내재화한 것임
대부분의 발명은 세 가지 기존 아이디어의 보간(interpolation) 결과임. 이런 시스템은 그걸 아주 잘함
AI가 어려운 문제를 스스로 풀 수 있다면 믿겠다고 생각했는데, 이번 결과가 진짜라면 이제 신봉자가 된 느낌임
더 많은 사례를 보고 싶지만, 세상이 정말 새롭고 흥미롭게 변하고 있음
수학·코딩 대회 문제는 규칙이 명확하고 검증이 쉬워서 학습이 용이함
하지만 코드 품질처럼 정의가 모호한 영역에서는 환각이 늘어남
AlphaGo처럼 스스로 학습하는 가치 함수가 없기에, RL만으로는 한계가 있음
“새롭고 흥미로운 세상”이라기보다, 이제부터는 끝없는 재탕의 시대가 올 것 같음
AI는 끊임없이 ‘괜찮은 수준’의 콘텐츠를 만들어내지만, 진짜 감동은 사라짐
인간이 주고받던 좋은 것들은 줄고, 나쁜 것들만 증폭된 느낌임
LLM은 단지 리믹서(remixer) 임. 과거에 존재하던 문자 조합만 예측할 뿐, 완전히 새로운 패턴은 스스로 만들지 않음
왜 ‘어려운 문제 해결’을 AI의 기준으로 삼는지 궁금함
대부분의 인간도 그런 문제를 못 푸는데, AI는 이미 일반 지식 작업에서는 탁월함
이런 기준이라면 그건 AGI나 ASI에 가까운 정의임
유명 VC들이 DeepSeek이 전자기학 입문 수준 문제를 풀었다며 “초천재 모델”이라 했지만, 과장된 듯함
진짜로 어떤 문제였는지, 전문가의 검증이 필요함
인간이 특별하다는 기본 가정이 여전히 너무 강하다고 느낌
“그냥 여러 시도를 하다 보니 되는 것”이라는 설명이 인간에게도 적용될 수 있음을 잘 생각하지 않음
과학적 사고를 중시하는 커뮤니티에서도 인간 예외주의가 깊게 자리함
인간은 단 20와트로 경험 없이 추론할 수 있는 능력을 가짐. 그건 분명 특별함
이번 성취도 결국 인간이 문제를 만들고, AI와 협력해 검증했기에 의미가 있음
AI가 스스로 목표를 세우거나 성취를 인식하지 못함
막대한 비용을 들여 얻은 건 사소한 수학적 진전뿐일 수도 있음
인간이 특별하다는 건 단순한 믿음이 아니라, 신경과학·인지과학이 다루는 실증적 사실임
나는 기능주의자지만, LLM의 ‘지능처럼 보이는 것’이 진짜 지능이라고는 생각하지 않음
GPT‑5.4 Pro와의 전체 대화와 결과 보고서가 공개되어 있음 대화 전문 / 결과 요약
제공된 solution template 파일의 실제 내용이 궁금함
또, 사용자가 중간에 토큰 사용량을 업데이트하며 문맥을 확장한 방식이 흥미로움
Opus 4.6이 약 25만 토큰을 소비했다는 점에서, 토큰 수를 문제 난이도의 지표로 상상해봄
오늘 한 React 리팩터링이 수학 난제의 절반쯤 어려웠다는 셈이라 웃김
농담 같지만, 수학은 본질적으로 매우 폐쇄적 분야라 실제로 그럴 수도 있음
어떤 문제는 전 세계 5~10명만 시도해봤을 정도임
동기 부족으로 미완성된 소프트웨어처럼, 수학 문제도 단순히 시도자가 적어서 미해결일 수 있음
그래도 AI가 이런 문제를 푼 건 기적 같은 일임
컨텍스트 관리가 중요함. 토큰 낭비는 성능 저하로 이어짐
컨텍스트가 커져도 비용은 늘고, 공급자가 단가를 올릴 수도 있음
Opus 4.6과 GPT‑5.4 Pro의 출력 비교 결과, 전자는 더 다양한 검증 시도와 사고의 흐름을 보여 흥미로웠음
수학은 변수 하나에 토큰 하나지만, 소프트웨어는 가독성 때문에 훨씬 많은 토큰을 씀
토큰 수는 복잡도의 지표가 아님. 데이터 중심 문제는 단순 사고형 문제보다 훨씬 많은 토큰을 소비함
AI의 능력은 훈련된 비용 함수(cost function) 에 의해 결정됨
결국 지능이란 복잡한 비용 함수를 최소화하는 과정임
수학·코딩처럼 자동 검증이 가능한 분야에서 RLVR 같은 접근이 빠르게 발전할 것임
하지만 사회적 보상이나 불확실성이 큰 영역에서는 진전이 느릴 수 있음
“비용 함수로 표현할 수 없는 문제도 있다”는 반론이 있음
예를 들어 복소수의 도입은 표현 최적화의 결과로 볼 수도 있음
도메인 전문가들이 자신의 문제 해결 방식을 LLM에 학습시키고 있음
결국 LLM은 그들의 사고 패턴을 모방하며 문제를 해결하게 됨
기존 증명을 재샘플링하는 방식으로 풀 수 있는 문제들이 많다고 생각함
인간이라면 미쳐버릴 반복 탐색을 기계는 끈질기게 수행할 수 있음
큰 진보는 아니지만, 추측을 정리로 바꾸는 역할은 가능함
문제는 그 증명이 의미 있는가임. 대부분은 기존 패러다임 안의 반복일 가능성이 큼
완전히 새로운 시야를 여는 경우는 드묾
토큰 낭비일 수도 있음
모든 발견은 조합적 합성의 결과라고 생각함. 완전한 무(無)에서 나온 건 거의 없음
그렇다면 ‘진정한 새로움’을 평가할 벤치마크 설계는 어떻게 해야 할까 궁금함
Epoch의 Open Problems 페이지에 15개의 문제와 난이도 분류가 있음
이번에 해결된 건 ‘moderately interesting’ 단계로, 가장 쉬운 축에 속함
그래도 해결 전부터 공개된 문제였다는 점이 인상적임
앞으로 같은 단계의 나머지 3문제도 얼마나 빨리 풀릴지 궁금함
어떤 난제든 LLM이 푼다는 건 이미 공상과학 수준의 사건이라 생각함
제목이 다소 오해의 소지가 있음
실제 제목은 “A Ramsey-style Problem on Hypergraphs”이며, GPT‑5.4만이 아니라 여러 최신 모델이 해결했음
그래도 여전히 멋진 성취임
Hacker News 의견들
많은 사람들이 “LLM은 진정한 창의성을 가질 수 없다”고 단정하는 걸 보면 놀라움
단순히 “훈련 데이터에 없으니 불가능하다”고 말하는 건 부족함. 이미 수많은 반례가 있음
그렇다면 왜 어떤 새로운 과제는 가능하고, 어떤 건 불가능하다고 생각하는지 근거가 필요함
만약 ‘새로움’이 연속선상에 있다고 인정한다면, 어디서 선을 긋는지, 어떤 증거가 나오면 생각이 바뀔지 궁금함
하지만 반론도 있음. 수학 올림피아드 금메달을 딴 모델을 보고 첫 번째 주장은 버렸음
또 RL과 메모리 추가로 두 번째 한계도 극복 가능할 듯함
어쩌면 대형 LLM이 인간처럼 정보를 내재화할 수도 있음
관련 예시: METR 블로그 글
인간은 “진정한 새로움”을 너무 거창하게 정의함 — 예를 들어 초전도체 공식이나 신약 개발 같은 것
하지만 사실 신발끈 묶는 새로운 방법도 ‘형식적’으로는 새로움임
LLM은 이런 사소한 문제들을 무수히 해결할 수 있지만, 인간이 감탄할 만큼 의미 있는 혁신은 아닐 수 있음
성능 오버헤드를 이유로 정확히 거부하고 완전히 다른 접근을 제시했음
대단히 새로운 문제는 아니지만, 꽤 창의적인 해결책이라 놀라웠음
프로젝트 이미지
단순 암기가 아니라, 신경망 내부 회로로 일반화된 연산을 내재화한 것임
AI가 어려운 문제를 스스로 풀 수 있다면 믿겠다고 생각했는데, 이번 결과가 진짜라면 이제 신봉자가 된 느낌임
더 많은 사례를 보고 싶지만, 세상이 정말 새롭고 흥미롭게 변하고 있음
하지만 코드 품질처럼 정의가 모호한 영역에서는 환각이 늘어남
AlphaGo처럼 스스로 학습하는 가치 함수가 없기에, RL만으로는 한계가 있음
AI는 끊임없이 ‘괜찮은 수준’의 콘텐츠를 만들어내지만, 진짜 감동은 사라짐
인간이 주고받던 좋은 것들은 줄고, 나쁜 것들만 증폭된 느낌임
대부분의 인간도 그런 문제를 못 푸는데, AI는 이미 일반 지식 작업에서는 탁월함
이런 기준이라면 그건 AGI나 ASI에 가까운 정의임
진짜로 어떤 문제였는지, 전문가의 검증이 필요함
인간이 특별하다는 기본 가정이 여전히 너무 강하다고 느낌
“그냥 여러 시도를 하다 보니 되는 것”이라는 설명이 인간에게도 적용될 수 있음을 잘 생각하지 않음
과학적 사고를 중시하는 커뮤니티에서도 인간 예외주의가 깊게 자리함
AI가 스스로 목표를 세우거나 성취를 인식하지 못함
막대한 비용을 들여 얻은 건 사소한 수학적 진전뿐일 수도 있음
나는 기능주의자지만, LLM의 ‘지능처럼 보이는 것’이 진짜 지능이라고는 생각하지 않음
GPT‑5.4 Pro와의 전체 대화와 결과 보고서가 공개되어 있음
대화 전문 / 결과 요약
또, 사용자가 중간에 토큰 사용량을 업데이트하며 문맥을 확장한 방식이 흥미로움
Opus 4.6이 약 25만 토큰을 소비했다는 점에서, 토큰 수를 문제 난이도의 지표로 상상해봄
오늘 한 React 리팩터링이 수학 난제의 절반쯤 어려웠다는 셈이라 웃김
어떤 문제는 전 세계 5~10명만 시도해봤을 정도임
동기 부족으로 미완성된 소프트웨어처럼, 수학 문제도 단순히 시도자가 적어서 미해결일 수 있음
그래도 AI가 이런 문제를 푼 건 기적 같은 일임
컨텍스트가 커져도 비용은 늘고, 공급자가 단가를 올릴 수도 있음
AI의 능력은 훈련된 비용 함수(cost function) 에 의해 결정됨
결국 지능이란 복잡한 비용 함수를 최소화하는 과정임
수학·코딩처럼 자동 검증이 가능한 분야에서 RLVR 같은 접근이 빠르게 발전할 것임
하지만 사회적 보상이나 불확실성이 큰 영역에서는 진전이 느릴 수 있음
예를 들어 복소수의 도입은 표현 최적화의 결과로 볼 수도 있음
도메인 전문가들이 자신의 문제 해결 방식을 LLM에 학습시키고 있음
결국 LLM은 그들의 사고 패턴을 모방하며 문제를 해결하게 됨
기존 증명을 재샘플링하는 방식으로 풀 수 있는 문제들이 많다고 생각함
인간이라면 미쳐버릴 반복 탐색을 기계는 끈질기게 수행할 수 있음
큰 진보는 아니지만, 추측을 정리로 바꾸는 역할은 가능함
완전히 새로운 시야를 여는 경우는 드묾
토큰 낭비일 수도 있음
Epoch의 Open Problems 페이지에 15개의 문제와 난이도 분류가 있음
이번에 해결된 건 ‘moderately interesting’ 단계로, 가장 쉬운 축에 속함
그래도 해결 전부터 공개된 문제였다는 점이 인상적임
앞으로 같은 단계의 나머지 3문제도 얼마나 빨리 풀릴지 궁금함
제목이 다소 오해의 소지가 있음
실제 제목은 “A Ramsey-style Problem on Hypergraphs”이며, GPT‑5.4만이 아니라 여러 최신 모델이 해결했음
그래도 여전히 멋진 성취임