Hacker News 의견들
  • 많은 사람들이 “LLM은 진정한 창의성을 가질 수 없다”고 단정하는 걸 보면 놀라움
    단순히 “훈련 데이터에 없으니 불가능하다”고 말하는 건 부족함. 이미 수많은 반례가 있음
    그렇다면 왜 어떤 새로운 과제는 가능하고, 어떤 건 불가능하다고 생각하는지 근거가 필요함
    만약 ‘새로움’이 연속선상에 있다고 인정한다면, 어디서 선을 긋는지, 어떤 증거가 나오면 생각이 바뀔지 궁금함

    • 스스로 질문에 답해보자면, LLM의 근본적 한계에 대한 논리적 주장도 있음
      1. 인간 데이터를 학습하니 인간의 한계를 모방함
      2. 경험에서 배우지 않음
        하지만 반론도 있음. 수학 올림피아드 금메달을 딴 모델을 보고 첫 번째 주장은 버렸음
        또 RL과 메모리 추가로 두 번째 한계도 극복 가능할 듯함
        어쩌면 대형 LLM이 인간처럼 정보를 내재화할 수도 있음
        관련 예시: METR 블로그 글
    • LLM은 본질적으로 무엇이든 생성할 수 있음. 다만 자신이 만든 걸 이해하지 못함
      인간은 “진정한 새로움”을 너무 거창하게 정의함 — 예를 들어 초전도체 공식이나 신약 개발 같은 것
      하지만 사실 신발끈 묶는 새로운 방법도 ‘형식적’으로는 새로움임
      LLM은 이런 사소한 문제들을 무수히 해결할 수 있지만, 인간이 감탄할 만큼 의미 있는 혁신은 아닐 수 있음
    • macOS에서 앱 창을 ‘투명하게 보는’ 유틸리티를 만들고 있었는데, Claude Code가 ScreenCaptureKit을 쓰지 말라고 제안했음
      성능 오버헤드를 이유로 정확히 거부하고 완전히 다른 접근을 제시했음
      대단히 새로운 문제는 아니지만, 꽤 창의적인 해결책이라 놀라웠음
      프로젝트 이미지
    • LLM이 새로운 곱셈 문제를 풀 수 있는 이유는, 훈련 중 수많은 곱셈 예시를 보고 압축된 추상 전략을 학습했기 때문임
      단순 암기가 아니라, 신경망 내부 회로로 일반화된 연산을 내재화한 것임
    • 대부분의 발명은 세 가지 기존 아이디어의 보간(interpolation) 결과임. 이런 시스템은 그걸 아주 잘함
  • AI가 어려운 문제를 스스로 풀 수 있다면 믿겠다고 생각했는데, 이번 결과가 진짜라면 이제 신봉자가 된 느낌임
    더 많은 사례를 보고 싶지만, 세상이 정말 새롭고 흥미롭게 변하고 있음

    • 수학·코딩 대회 문제는 규칙이 명확하고 검증이 쉬워서 학습이 용이함
      하지만 코드 품질처럼 정의가 모호한 영역에서는 환각이 늘어남
      AlphaGo처럼 스스로 학습하는 가치 함수가 없기에, RL만으로는 한계가 있음
    • “새롭고 흥미로운 세상”이라기보다, 이제부터는 끝없는 재탕의 시대가 올 것 같음
      AI는 끊임없이 ‘괜찮은 수준’의 콘텐츠를 만들어내지만, 진짜 감동은 사라짐
      인간이 주고받던 좋은 것들은 줄고, 나쁜 것들만 증폭된 느낌임
    • LLM은 단지 리믹서(remixer) 임. 과거에 존재하던 문자 조합만 예측할 뿐, 완전히 새로운 패턴은 스스로 만들지 않음
    • 왜 ‘어려운 문제 해결’을 AI의 기준으로 삼는지 궁금함
      대부분의 인간도 그런 문제를 못 푸는데, AI는 이미 일반 지식 작업에서는 탁월함
      이런 기준이라면 그건 AGI나 ASI에 가까운 정의임
    • 유명 VC들이 DeepSeek이 전자기학 입문 수준 문제를 풀었다며 “초천재 모델”이라 했지만, 과장된 듯함
      진짜로 어떤 문제였는지, 전문가의 검증이 필요함
  • 인간이 특별하다는 기본 가정이 여전히 너무 강하다고 느낌
    “그냥 여러 시도를 하다 보니 되는 것”이라는 설명이 인간에게도 적용될 수 있음을 잘 생각하지 않음
    과학적 사고를 중시하는 커뮤니티에서도 인간 예외주의가 깊게 자리함

    • 인간은 단 20와트로 경험 없이 추론할 수 있는 능력을 가짐. 그건 분명 특별함
    • 이번 성취도 결국 인간이 문제를 만들고, AI와 협력해 검증했기에 의미가 있음
      AI가 스스로 목표를 세우거나 성취를 인식하지 못함
      막대한 비용을 들여 얻은 건 사소한 수학적 진전뿐일 수도 있음
    • 인간이 특별하다는 건 단순한 믿음이 아니라, 신경과학·인지과학이 다루는 실증적 사실임
      나는 기능주의자지만, LLM의 ‘지능처럼 보이는 것’이 진짜 지능이라고는 생각하지 않음
    • 인간의 독특함을 이해하려면 Orchestrated Objective Reduction 이론을 참고할 만함
    • 인간이 특별하다는 게 아니라, 통계 모델은 틀을 벗어난 사고를 거의 못 한다는 뜻임
  • GPT‑5.4 Pro와의 전체 대화와 결과 보고서가 공개되어 있음
    대화 전문 / 결과 요약

    • 제공된 solution template 파일의 실제 내용이 궁금함
      또, 사용자가 중간에 토큰 사용량을 업데이트하며 문맥을 확장한 방식이 흥미로움
  • Opus 4.6이 약 25만 토큰을 소비했다는 점에서, 토큰 수를 문제 난이도의 지표로 상상해봄
    오늘 한 React 리팩터링이 수학 난제의 절반쯤 어려웠다는 셈이라 웃김

    • 농담 같지만, 수학은 본질적으로 매우 폐쇄적 분야라 실제로 그럴 수도 있음
      어떤 문제는 전 세계 5~10명만 시도해봤을 정도임
      동기 부족으로 미완성된 소프트웨어처럼, 수학 문제도 단순히 시도자가 적어서 미해결일 수 있음
      그래도 AI가 이런 문제를 푼 건 기적 같은 일
    • 컨텍스트 관리가 중요함. 토큰 낭비는 성능 저하로 이어짐
      컨텍스트가 커져도 비용은 늘고, 공급자가 단가를 올릴 수도 있음
    • Opus 4.6과 GPT‑5.4 Pro의 출력 비교 결과, 전자는 더 다양한 검증 시도와 사고의 흐름을 보여 흥미로웠음
    • 수학은 변수 하나에 토큰 하나지만, 소프트웨어는 가독성 때문에 훨씬 많은 토큰을 씀
    • 토큰 수는 복잡도의 지표가 아님. 데이터 중심 문제는 단순 사고형 문제보다 훨씬 많은 토큰을 소비함
  • AI의 능력은 훈련된 비용 함수(cost function) 에 의해 결정됨
    결국 지능이란 복잡한 비용 함수를 최소화하는 과정임
    수학·코딩처럼 자동 검증이 가능한 분야에서 RLVR 같은 접근이 빠르게 발전할 것임
    하지만 사회적 보상이나 불확실성이 큰 영역에서는 진전이 느릴 수 있음

    • “비용 함수로 표현할 수 없는 문제도 있다”는 반론이 있음
      예를 들어 복소수의 도입은 표현 최적화의 결과로 볼 수도 있음
  • 도메인 전문가들이 자신의 문제 해결 방식을 LLM에 학습시키고 있음
    결국 LLM은 그들의 사고 패턴을 모방하며 문제를 해결하게 됨

  • 기존 증명을 재샘플링하는 방식으로 풀 수 있는 문제들이 많다고 생각함
    인간이라면 미쳐버릴 반복 탐색을 기계는 끈질기게 수행할 수 있음
    큰 진보는 아니지만, 추측을 정리로 바꾸는 역할은 가능함

    • 문제는 그 증명이 의미 있는가임. 대부분은 기존 패러다임 안의 반복일 가능성이 큼
      완전히 새로운 시야를 여는 경우는 드묾
      토큰 낭비일 수도 있음
    • 모든 발견은 조합적 합성의 결과라고 생각함. 완전한 무(無)에서 나온 건 거의 없음
    • 그렇다면 ‘진정한 새로움’을 평가할 벤치마크 설계는 어떻게 해야 할까 궁금함
  • Epoch의 Open Problems 페이지에 15개의 문제와 난이도 분류가 있음
    이번에 해결된 건 ‘moderately interesting’ 단계로, 가장 쉬운 축에 속함
    그래도 해결 전부터 공개된 문제였다는 점이 인상적임
    앞으로 같은 단계의 나머지 3문제도 얼마나 빨리 풀릴지 궁금함

    • 어떤 난제든 LLM이 푼다는 건 이미 공상과학 수준의 사건이라 생각함
  • 제목이 다소 오해의 소지가 있음
    실제 제목은 “A Ramsey-style Problem on Hypergraphs”이며, GPT‑5.4만이 아니라 여러 최신 모델이 해결했음
    그래도 여전히 멋진 성취