Rich Sutton의 AI 창의성과 발견

(twitter.com/RichardSSutton)

5P by GN⁺ 1달전 | ★ favorite | 댓글 1개

지도학습으로 훈련된 생성 AI는 사례와 비슷하게 행동하는 모방 모델로, 유용하더라도 과학·수학의 새로운 발견에는 한계가 있음
인터넷 답변이나 문서 요약에서는 새로움이 오히려 환각이 되며, 좋은 답변은 원천 자료의 품질에서 나옴
소설·이미지 생성처럼 새로움이 필요한 경우에도 출력이 학습 자료와 얼마나 가까운지 알기 어렵고, 무작위성은 새로움을 만들지만 평가 없이는 좋은 발견이 되지 못함
AlphaGo, AlphaZero, GT-Sophy, AlphaFold, AlphaProof, Claude-Code, RL-Lyft 같은 시스템은 평가와 선택적 보존을 통해 새롭고 좋은 결과를 찾음
완전한 AI 과학자를 원한다면 명시적 목표를 공유해 AI가 만들고 평가하고 발견하도록 해야 하며, 창의성과 발견의 자동화가 필요함

생성 AI의 한계와 유용성

생성 AI는 대량의 예시를 받아 사람처럼 텍스트를 만들거나, 예술가·자연처럼 이미지를 만들거나, 인터넷 영상처럼 비디오를 만드는 모방 모델임
생성 AI는 매우 유용할 수 있지만, “좋은 부분은 새롭지 않고 새로운 부분은 좋지 않다”는 오래된 농담의 평가가 큰 부분에 적용됨
인터넷에서 답을 찾거나 문서를 요약할 때는 AI가 새로울 필요가 없고, 답의 품질은 문서 작성자나 인터넷 글 같은 원천 자료에서 나옴
AI 답변이 원천 자료를 넘어 무언가를 더하면 그것이 환각이며, 대부분의 경우 사용자는 AI가 지어내는 것을 원하지 않음

새로움, 무작위성, 평가의 문제

사용자가 사실이나 현실이 아니라 소설과 오락을 원할 때는 새로움이 예외적으로 필요함
아이를 위한 잠자리 이야기나 기존 인터넷 이미지와 다르면서도 그 기반을 가진 이미지는 생성 AI에 요청할 수 있음
인터넷이 너무 크고 가능한 원천이 너무 많기 때문에 AI의 이야기, 시, 이미지가 실제로 얼마나 창의적인지 실용적으로 알기 어려움
생성 AI의 처리는 일부 확률적이어서 매 결정이 여러 방향으로 갈 수 있고, 매번 다른 궤적을 만들 수 있음
궤적이 무작위에 기반하면 새롭고, 학습 데이터에 기반하면 데이터의 품질 때문에 좋을 수 있지만, 동시에 새롭고 좋지는 못함

과학·수학에 필요한 발견

생성 AI가 동시에 좋고 새롭지 못해도 대부분의 용도에서는 치명적 문제가 아니며, 빠르고 싸고 작고 맞춤화 가능하고 복제 가능하다면 변혁적 기술이 될 수 있음
과학과 수학에서는 단순 모방 AI만으로 충분하지 않으며, 진짜 창의성과 발견이 필요함
AlphaGo의 37수, AlphaZero의 독창적인 체스 스타일, GT-Sophy의 시뮬레이션 레이싱 성능은 새롭고 좋은 것을 찾은 사례임
AlphaFold, AlphaProof, Claude-Code는 과학·수학·프로그래밍에서 실제 진전을 가져온 사례로 제시됨
RL-Lyft는 차량 호출 사업에서 승객에게 차량을 배정하는 방식을 최적화하는 시스템임
일부 언어 모델은 지도학습 기반 생성 AI를 넘어서는 방식으로 보강되어 있음

발견의 세 단계

발견은 여러 가지를 시도하고, 무엇이 작동하는지 본 뒤, 가장 잘 작동한 것을 유지하는 과정임
자연선택에 의한 진화, 과학적 방법, 일상생활과 학습은 모두 시도하고 작동한 것을 기억하는 방식으로 움직임
심리학에서는 이를 도구적 학습 또는 조작적 조건형성이라고 부르고, 기계학습에서는 강화학습이라고 부름
계획과 조합 탐색에서도 “생성하고 시험하기”라는 발견의 아이디어가 작동함
발견의 핵심은 변이, 평가, 선택적 보존이라는 세 단계를 결합하는 것임
지도학습만으로는 런타임에 생성물을 평가할 방법이 없고, 평가가 없으면 선택적 보존도 없으며, 따라서 발견도 없음
새로움은 잠깐 나타날 수 있지만 그 가치가 인식되지 않으면 사라지고 잃어버리게 됨

평가, 목표, 자율성

사람이 생성 AI로 여러 그림을 만들고 마음에 드는 하나를 고르면, 인간+AI 시스템이 발견을 완성함
명확한 목표가 있을 때도 평가가 가능하며, 어떤 수는 체크메이트로 이어지고, 어떤 단계는 증명으로 이어지고, 어떤 행동은 높은 보상으로 이어짐
어떤 유전자형은 더 많은 복제를 만들고, 어떤 이론은 데이터를 더 잘 설명함
변이는 완전히 무작위일 필요는 없고, 좋은 과학자는 시험할 이론을 임의로 고르지 않음
답이 어디에 있는지 완전히 결정되어 있으면 발견이 아니며, 발견에는 불확실성이 필요함
역전파의 가중치 업데이트는 결정적이지만, 가중치는 작은 무작위 값으로 초기화되므로 변이가 존재함
무작위 초기화는 좋은 성능을 얻기 위해 제대로 수행되어야 하는 필요한 변이 형태임
역전파에서는 변이가 네트워크 초기화 때 한 번만 일어나므로 효과가 일시적이고, 나중에 네트워크가 학습 능력을 잃을 수 있음
“continual backpropagation”은 덜 사용되는 뉴런을 가끔 작은 무작위 가중치로 다시 초기화해 변이가 계속되고 가소성이 유지되도록 함
발견에는 사람이나 명시적 목표에서 오는 평가가 필요하며, 완전한 자율성은 명시적 목표가 평가를 제공할 때 가능함
AI 과학자의 전체 능력을 원한다면 목표를 공유해 AI가 만들고 평가하고 발견하며 목표 달성에 참여하도록 해야 함

GN⁺ 1달전 [-]

Hacker News 의견들

코딩처럼 가장 성공적인 응용은 순수한 LLM/생성 모델링의 결과가 아니라, 에이전트식 하네스로 루프를 닫은 데서 나옴
생성-테스트-선택적 개선 루프가 과학 작업의 핵심 양식이고, LLM + 검증 가능한 보상의 강화학습 + 컴파일러/터미널 실행 피드백은 이 과정을 상당히 잘 모사함
이는 현대 계산 시스템 위에 구현된 Fisher/Box 피드백 루프(https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...)에 가깝고, LLM은 그저 구성요소일 뿐임
Sutton이 지금의 전체 그림을 두고 말했으면 좋았을 텐데, LLM/역전파 쪽만 다룬 점이 아쉬움. 이런 루프가 발견을 적어도 부분적으로 자동화할 수 있는지 정말 궁금함
발견에는 더 많은 요소가 있고, 초기 작동 모델/가설이 어디서 오는지나 업데이트를 어떻게 고르는지는 여전히 불명확함. 최근 Hanson의 Patterns of Discovery가 그 방향을 다룬다고 봤는데, 아직 읽지는 않았지만 기계적인 단서가 있는지 궁금함
- 초기 모델/가설이 어디서 오고 업데이트가 어떻게 선택되는지는 강화학습에서도 문제라서, 보통 먼저 지도학습으로 몇몇 궤적을 모방하게 가르친 뒤 강화학습으로 모델을 다듬음
  강화학습만으로는 보상에 도달하기 어려워 순수 강화만으로 과제를 배우기 힘든 큰 문제가 있음. 인간도 책에서 배우는 감독 신호와 문제 풀이 탐색을 결합해 발견 문제를 풀며, 수학에 대한 초기 교육이 전혀 없는 사람은 아무리 똑똑해도 대단한 결과를 내기 어려움. 부트스트랩은 과거에 이미 비용이 지불된 탐색이었음
- 하네스의 중요성에는 완전히 동의함
  다만 진화 알고리즘이 겪었던 것과 같은 문제가 보임. 돈이 떨어질 때까지 후보 해법을 생성할 수는 있지만, 여전히 그 해법들을 평가해야 함. 적합도 함수가 필요하고, 이는 적어도 해법의 대략적인 형태를 알아야 한다는 뜻임. 더 개방적인 적합도 함수에 관한 작업을 아는 사람이 있다면 읽어보고 싶음
- LLM에 비판적인 연구자들은 주로 LLM의 근본적인 수학적/구조적 성질을 문제 삼지만, 모델 주변에서 유용하게 만들기 위해 진행되는 공학을 놓치는 듯함
  그런 수학적 한계 때문에 LLM이 진짜 AGI로 가는 길이 아닐 수는 있지만, 지금 시점에서는 솔직히 그다지 중요하지 않아 보임
- 가장 중요한 점은 강화 루프가 학습 중에 쓰인다는 것임. Sutton의 원래 가설에는 동의하지 않지만, 강화학습 이후에는 그 가설이 더 약해짐
“생성된 새로운 것들은 평가되어야 창의성이 성립한다. 평가와 최고 결과의 보존이 없다면 아무것도 창조되지 않는다. 새로움은 잠깐 나타나지만, 그 가치가 인식되지 않으면 사라져 잃어버린다”라는 식의 framing이 정말 좋음
Twitter 댓글의 많은 사람들, 여기 일부도 아마 도입부 이후를 읽지 않은 듯함. 그는 AI 시스템이 창의성과 발견을 할 수 없다고 말하는 게 아니라, 하네스 없는 생성 AI는 창의성과 발견을 할 수 없다고 주장함
새로운 아이디어의 가치를 인식하고 기억하는 다른 시스템이 필요하다는 뜻임. 그는 이 가치 인식 단계가 자동화되어, 자기 정의상 완전 자동 시스템에서 창의성과 발견을 달성하는 예도 제시함
- 전반적으로 동의하지만, 실제로 쓰이는 방식과 맞지 않는 좁은 정의의 생성 AI를 놓고 이런 주장을 하면 허수아비 논증이 됨
내가 놓친 게 아니라면, 이 주장은 원래의 사전학습 시대(예: GPT 1~4)에만 적용되는 것 같음. 사후학습과 강화학습 패러다임은 명백히 변이, 평가, 선택적 보존을 하고 있지 않나?
- 원문은 검증 가능한 보상의 강화학습(RLVR) 같은 사후학습 단계를 간과하는 듯함. 물론 Rich Sutton이 그런 걸 모른다고 주장할 생각은 없음. RLVR은 평가 방식이 매우 좁긴 함
  이게 Keen Tech가 David Silver의 Ineffable Intelligence 접근으로 기우는 전조인지 궁금함
- RLVR은 여전히 기반 분포를 넘어 확장하지 못하고, 그 안에서 최빈값을 찾을 뿐임
  즉 평가와 보존은 있지만, 변이나 “계획”은 없음
  그렇다고 LLM을 못 쓴다는 뜻은 아님. AlphaEvolve가 정확히 그렇게 함. 다만 외부의 단순한 진화식 계획기를 사용함. 그가 말하는 큰 요지는 우리의 계획기가 아직 “멍청”하며, 여기에 더 투자해야 한다는 것임
  Claude Code에서 LLM을 반복적으로 이끌 때는 사용자가 외부 계획기 역할을 하는 셈이고, 그것도 잘 작동함
AlphaGo와 이런 생성 AI 모델이 마주하는 문제를 놓고 문제 설정이 이상해 보임
AlphaGo는 외부에서 주어진 엄격한 평가를 받았지, 스스로 만들어낸 게 아님
생성 AI 모델도 외부의 엄격한 평가를 받으면 여러 영역에서 성공할 수 있음. 단순 프로그래밍 과제부터 최전선 수학(최근 추측 반례 제시), 더 최적화된 커널 코드 작성까지 다양한 영역에서 성공한다는 점이 특히 놀라운 특징임
해법은 극도로 복잡하지만 평가는 비교적 덜 복잡한 분야에서는 강화학습도 많고, 발견과 “진화 비슷한” 궤적 선택도 실제로 일어남
그래서 AlphaGo와 비교하는 것이 이상함. AlphaGo는 좁은 영역에서 인간이라는 외부 출처가 준, 자신과 독립적인 엄격한 평가를 받았음. 생성 AI도 그런 평가가 주어지면 꽤 놀라운 결과를 보일 수 있음
더 이상한 건 많은 경우 혁신과 진전이 진정으로 새로운 아이디어를 요구하지 않고, 서로 다른 방법·전술·아이디어를 고품질로 겹겹이 실행하는 데서 나온다는 점임. 많은 영역에서 우리의 집단지식은 엄청나게 희박하고 복잡하므로, 도구·모델·아이디어를 선택적으로 고품질 재조합할 수 있다는 것은 매우 강력함
유한한 탐색 지평(시간, 자원)에서는 “좋은 선택”이 1%인 것과 3%인 것 사이가 완전히 다른 세계임
가장 중요하게는, 위의 얘기는 지능에 관한 게 아니라 우리가 가진 중요하고 가치 있는 문제에 대한 메마른 해법 농사에 관한 것임. AGI와 지능 논쟁 대부분은 이 단순한 사실을 놓치는 듯함. 비행기가 새처럼 날지 못하거나 잠수함이 헤엄치지 않는다는 말은 유용성과 무관하다는 흔한 비유처럼
마지막으로, 이 시스템이 보통 사람들이 평생 마주하는 문제에서 평균적으로 더 잘할 수 없다고 정말 생각하는가? 과학이나 의학 분야의 일반적인 문제 시험에서 60~70% 점수로 학위를 주는 현실에서, 인간 지능은 어떻게 정의해야 할까?
- 비행기에는 새처럼 에어포일이 있는 날개가 있고, 잠수함에는 물고기의 부레처럼 공기탱크가 있다는 점은 짧게 짚고 싶음
  알바트로스처럼 날개를 거의 퍼덕이지 않고 나는 새도 있음
딥러닝의 상당 부분은 구성적 일반화라고 봄. 모델은 재사용 가능한 조각들, 즉 추상화·스타일·절차·제약 등을 배우고, 그것들을 학습 데이터에 전체로는 한 번도 등장하지 않았을 방식으로 재조합함
따라서 재료가 과거 데이터에서 왔다 해도 최종 구성은 의미 있는 차원에서 새로울 수 있음
그의 요지를 잘 못 따라가겠음. a) 목표, 즉 “취향”을 훈련 단계에 직접 통합하는 새로운 기반 알고리즘이 필요하다는 뜻인가, 아니면 b) 훈련된 모델이 반복할 때 목표를 향하도록 해야 한다는 뜻인가?
a)라면 그는 그런 알고리즘을 제안하지 않았고, 그렇게 낮은 수준에서 추상적 목표를 어떻게 정량화할지도 모르겠음. 그런 알고리즘을 제안했는데 내가 잘못 읽은 건가? b)라면 이미 존재함. AlphaEvolve나 그가 말한 여러 사례가 그렇고, 좀 얄밉게 말하면 그냥 /goal을 입력하고 돌리면 됨
또한 LLM이 좋고 새로운 일을 할 수 없다는 말은 범주적으로 틀렸다고 봄. 할 수 있다면 “그건 새롭지 않고 파생적일 뿐”이라고 말할 수도 있겠지만, 예를 들어 LLM으로 프로그래밍 언어를 만들었고 내 목적에 잘 맞게 작동한다면 그건 새롭고 좋은 것이 아닌가? FORTRAN 말고 다른 언어는 모두 새롭지 않다는 뜻인가?
모든 것은 파생적이고, LLM이 시도한 것들을 평가하는 루프 안에 LLM을 넣을 수 있음. 그가 이렇게 틀릴 만큼 둔한 사람은 아니니, 내가 뭔가 오해하고 있는 것 같음
- 아니, 그는 우리가 이미 그런 것을 갖고 있고 더 많이 써야 한다고 말하는 것 같음
  AlphaGo는 가능한 수를 평가하고 반복할 때 발견을 사용함
  Claude Code도 스크립트를 생성한 뒤 작동 여부를 평가할 때 발견을 사용함
  그는 과학과 공학에서도 코드에서 하듯 AI 시스템이 스스로 평가와 반복을 하게 해야 한다고 말하는 것임
  기본적으로 공학을 위한 하네스 공학임
- LLM은 지도를 갖고 있지만 비옥한 땅과 불모지를 구분하지 못함. 예를 들어 Anthropic의 새 모델이 유망한 “약물”을 어떻게 생성하겠는가? 모델 안에 내재된 지식에 더해 AlphaFold의 추론 패러다임을 흡수했기 때문임. Claude 단독으로는 단백질 분석 방법을 설계할 수 없을 것임
- 그의 YouTube 발표 중 하나에서는 우리가 우주의 “디자이너” 시대에 들어간다고 말했던 것 같음
  https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
  35분쯤임
AI를 두고 “창의적” 같은 단어를 쓸 때는 매우 구체적이어야 함
AI가 예술을 만들 수 있나? 감각적으로 즐거운 무언가를 만들 수는 있음. 하지만 예술은 결국 인간의 감정과 정서를 전달하는 것임. 인간끼리도 예술 이해는 보편적이지 않음. “감정과 정서”, 따라서 예술은 특정 집단의 공유된 믿음과 경험에 깊게 묶일 수 있음
수학이나 과학 같은 비주관적 분야에서 창의적일 수 있나? Einstein은 창의적 사고실험으로 일반상대성이론을 도출했음. AI가 실험으로 드러난 문제를 해결하는 여러 수학적 틀을 테스트하다가 일반상대성이론의 장방정식을 내놓는다면 그건 창의적인가? 아마 그럴 수 있지만, 확실히 같은 방식은 아님
- 막대기와 진흙부터 유리와 공기까지 무엇으로든 예술을 만들 수 있음. 당연히 AI로도 예술을 만들 수 있음
  질문이 기계가 예술을 만들 수 있느냐라면, 결국 누군가가 그 기계를 켜고 예술을 만들도록 설계해야 했으니, 따지고 보면 그 사람 또는 사람들이 예술을 만드는 것이라고도 할 수 있음
  역사적으로 “x가 예술인가?”라는 질문의 답은 결국 늘 “그렇다”가 됐음. 왜 사람들이 같은 함정에 계속 빠지는지 모르겠음
- 그의 창의성 정의는 폐루프임. 즉 만들어진 개념이 옆에서 보는 관찰자에게가 아니라 시스템 자신에게 새로워야 함
- “예술은 결국 인간의 감정과 정서를 전달하는 것”이라는 말에는 작은 오류가 있음. 예술은 창작자의 감정을 전달하는 것보다, 보는 사람·듣는 사람 등 수용자에게 감정을 일으키는 것에 더 가까움
  Wikipedia의 예술 문서는 이렇게 시작함
  “Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
  https://en.wikipedia.org/wiki/Art
  따라서 AI도 예술을 할 수 있음. 수용자에게 감정적 반응을 만들기만 하면 되기 때문임
- 현재 모델은 이미지 파스티시와 스타일 리믹스로 훈련되어 있음. 하지만 정서적·문화적 기표를 학습하고 파스티시와 리믹스를 지휘하는 Artistic Director 계층을 추가하지 못할 이유는 없음
  실질적 문제는 모델의 프롬프트 준수 능력이 매우 제한적이라는 점임. 장면 설계에서 지정할 수 있는 세부 수준이 너무 조악함. 그래서 많은 채워넣기식 파스티시 디테일이 들어간 “slop” 효과가 나올 수는 있지만, 부수적 사물 하나하나가 메시지를 강화하도록 의도적으로 배치된 이런 작품은 만들 수 없음
  https://en.wikipedia.org/wiki/The_Awakening_Conscience
  기본적으로 “자전거 탄 펠리컨을 그려줘” 문제의 전문가 버전임
  어떤 상황에서는 그런 수준의 창작 통제가 필요하고, 현재 이미지 생성기는 거기에 근접하지 못함
  그리고 그 통제가 없으면 유명 예술가들이 해왔고 지금도 하는 것처럼, 문화적 이정표가 되는 새로운 미학을 만드는 메타 창의성 수준에 도달할 수 없음
- 요즘 사람들은 예술이 불편하게 만들면 다운보트함
  그저 도파민을 원함. 생각은 아프니까 하지 않으려 함
기계학습이 창의적일 수 없거나 발견을 할 수 없다고 보지는 않음. 창의성과 발견은 결국 겉보기에는 떨어져 있는 올바른 개념들을 동시에 생각하는 것이고, 알고리즘적 사고는 더 명백히 관련 있는 개념들을 다루는 것이라고 봄
LLM이 아니더라도 어떤 모델은 무작위 아이디어를 생성하고, 순위를 매긴 뒤, 최고 결과를 출력할 수 있음
다만 인간이 그런 일에는 더 낫고, 기계학습은 알고리즘적 사고에 더 낫다고 봄. 여기서 “낫다”는 더 효율적이고 우리가 더 즐겨 하는 것이라는 뜻이며, 특히 우리 자신을 포함해 인간에게 주관적으로 끌리는 것, 즉 취향도 더 정확히 평가할 수 있음
기계학습은 프로그래밍보다 더 많은 일반화를 요구하지만 여전히 대부분 논리적인 작업에 최적화되어야 한다고 봄. 소프트웨어 개발, 번역, 예술과 발견을 위한 도구 같은 것들임
괜찮음. LLM은 지금 모습 그대로도 유용함. 다음 세대의 수학이나 물리학을 절대 내놓지 못한다 해도 그렇다
인간 중에서도 사고의 단계적 도약을 만든 두뇌는 너무 드물어서, 우리는 그들을 이름으로 기억할 정도임
- 그런 드문 인간들이, 역사에 잊힌 더 “평범한” 인간들이 만든 수많은 실패나 어느 정도 유용한 발견 위에 앉아 있었다는 점을 놓치고 있을 수 있음
대체 링크: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
지금은 내 쪽에서 502 “Bad Gateway”가 나오지만, 언젠가 복구될 듯함

답변달기

Rich Sutton의 AI 창의성과 발견

생성 AI의 한계와 유용성

새로움, 무작위성, 평가의 문제

과학·수학에 필요한 발견

발견의 세 단계

평가, 목표, 자율성

함께 보면 좋은 글 β

댓글과 토론

Hacker News 의견들