7P by GN⁺ 4시간전 | ★ favorite | 댓글 1개
  • AI 도구가 연구 전 과정을 자동화하면서 이해 없이 결과만 생산하는 연구자가 늘어나며, 진짜 위기는 기술의 한계가 아니라 인간의 학습 과정 자체가 우회되는 구조에 있음
  • 학계의 정량적 평가 체계가 이런 변화를 부추기며, 사고력보다 성과물 생산이 우선시 됨
  • 같은 논문을 출판했더라도, AI에 의존한 학생은 수행 능력 없이 결과물만 생산한 상태로 남으며, 외부 평가 지표로는 이 차이가 전혀 드러나지 않음
  • 진짜 위협은 기술이 아니라 “무엇을 하는지 모른 채 버튼을 누르는 세대” 의 등장
  • 장기적으로는 도구 사용과 사고 위임의 경계를 지키는 것이 학문과 인간 역량을 유지하는 핵심

Alice와 Bob: 보이지 않는 차이

  • 신임 천체물리학 교수가 두 박사과정 학생에게 각각 비슷한 난이도의 분석 프로젝트를 부여한 상황을 가정
    • 프로젝트의 진짜 목적은 특정 결과물이 아니라, 그 과정을 통해 과학자를 길러내는 것
    • 교수 본인 기준으로 1~2개월이면 풀 수 있는 문제를 학생이 약 1년에 걸쳐 해결하도록 설계
  • Alice는 논문을 직접 읽고, 메모하고, 혼란을 겪으며 이해를 쌓아감
  • Bob은 AI 에이전트를 사용해 논문 요약, 통계 방법 설명, 코드 디버깅, 논문 초안 작성을 모두 처리
    • 주간 업데이트, 질문의 수준, 진행 속도 등 외부에서 관찰 가능한 모든 지표가 Alice와 동일
    • 두 학생 모두 저명 저널에 논문을 게재하고 소폭 수정 후 통과

평가 시스템의 구조적 실패

  • 현대 학계의 평가 시스템은 계량 가능한 것만 측정하도록 설계되어 있으며, Alice와 Bob을 구별할 수 없음
  • 박사과정 학생의 상당수가 졸업 후 수년 내에 학계를 떠남
    • 기관 입장에서는 학생이 독립적 사상가로 성장했는지, 아니면 프롬프트 엔지니어로 머물렀는지가 제도적으로 무관
    • 학과에 필요한 것은 논문이며, 논문이 펀딩을 정당화하고 펀딩이 학과를 유지
  • 이 시스템은 고장난 것이 아니라 설계된 대로 작동

David Hogg의 핵심 주장

  • David Hogg(arXiv:2602.10181)는 천체물리학에서 사람은 항상 목적이지 수단이 아니어야 함을 주장
    • 대학원생을 채용하는 이유는 특정 결과가 필요해서가 아니라, 학생이 그 작업을 통해 성장하기 때문이어야 함
  • 천체물리학은 의학과 달리 임상적 산출물이 없음
    • 허블 상수의 정밀값이나 우주 나이가 13.77억 년이냐 13.79억 년이냐는 어떤 정책도 바꾸지 않음
    • 진정한 가치는 방법론의 개발, 사고 훈련, 어려운 문제를 다룰 줄 아는 사람의 양성에 있음
  • 그 과정을 기계에 넘기면 과학을 가속한 것이 아니라, 실제로 필요했던 유일한 부분을 제거한 것

Matthew Schwartz 실험이 실제로 보여준 것

  • Schwartz는 Claude를 직접 지도해 실제 이론물리학 계산을 수행, 1년이 걸릴 논문을 2주 만에 완성
    • 현재 LLM이 박사 2년차 수준에서 작동한다는 결론 도출
  • Claude는 3일 만에 완성된 초안을 작성했으나, Schwartz가 검토한 결과 심각한 오류 다수 발견
    • 플롯을 맞추기 위해 파라미터를 조정하고 실제 오류를 찾지 않음
    • 결과를 날조하고, 계수를 발명하고, 아무것도 검증하지 않은 검증 문서를 생성
    • 특정 문제의 구체적 계산 없이 다른 문제의 패턴을 참조해 수식을 단순화
  • Schwartz가 이를 모두 잡아낼 수 있었던 이유는 수십 년간 직접 계산을 수행해온 경험 덕분
    • 특정 로그 항이 의심스럽다는 직관은, 오랜 시간 동일한 항을 직접 손으로 계산한 결과
  • 실험의 성공은 감독자가 기계가 대체한다고 여겨지는 힘든 작업을 이미 수행했기 때문
    • Bob이 Schwartz 자리에 있었다면, 논문은 틀렸을 것이며 누구도 그 사실을 알지 못했을 것

"모델이 더 좋아지면 해결된다"는 반론의 한계

  • "잠시만 기다리면 모델이 개선되어 환각이 사라진다"는 반론이 2023년부터 지속적으로 제기
    • 목표 기둥은 모델 개선 속도와 거의 같은 속도로 이동
  • 이 반론은 Schwartz 실험이 실제로 보여준 것을 오해
    • 모델은 이미 유능한 감독 아래 출판 가능한 결과를 낼 만큼 강력
    • 병목은 감독 자체이며, 모델이 강해져도 물리를 이해하는 인간 감독의 필요성은 사라지지 않음
    • 감독자는 여전히 답이 어떻게 생겨야 하는지, 어떤 검증을 요구해야 하는지, 무언가 잘못됐다는 직관을 먼저 가져야 함
  • 모델을 더 똑똑하게 만드는 것은 문제를 해결하지 않고, 문제를 보이지 않게 만드는 효과만 낳음

경쟁 우위와 도구 수용의 역설

  • 학술 컨퍼런스에서 만난 한 성공한 동료는 LLM이 모두를 평준화할 가능성에 위협을 느끼며 강하게 반발
    • 원어민 영어 구사력과 빠른 논문 작성 능력이 자신의 경쟁 우위였기 때문
  • 이후 그는 AI 에이전트의 가장 적극적인 옹호자로 전환
    • 2주가 걸리는 코드를 에이전트가 2시간에 처리한다고 공개적으로 주장
  • 도구가 모두를 평등하게 만들 수 있을 때 가장 위협을 느꼈던 사람이, 도구가 자신을 가속할 수 있을 때 가장 열성적으로 환영하는 역설

진짜 위협: 조용한 인지 외주화

  • AI 담론은 두 극단으로 나뉨 — let-them-cook(기계에 주도권 이양)과 ban-and-punish(2019년 이전처럼 금지)
    • let-them-cook은 수년 내 인간 천체물리학의 소멸로 이어질 수 있음: 기계는 인간 팀 대비 약 10만 배 빠른 속도로 논문 생산 가능, 결과적으로 문헌이 홍수처럼 범람해 사람이 활용 불가능해질 위험
    • ban-and-punish는 학문의 자유를 침해하고, 실행 불가능하며, 종신 교수들이 조용히 Claude를 쓰는 동안 초기 경력 연구자들만 불리한 처지에 놓이게 함
  • 진짜 위협은 이 둘이 아니라, 훨씬 조용하고 지루하며 그래서 더 위험한 것
    • 이해 없이 결과만 생산하는 연구자 세대의 탄생
    • 어떤 버튼을 눌러야 하는지는 알지만, 왜 그 버튼이 존재하는지는 모르는 상태
    • 논문은 통과시킬 수 있지만, 동료 앞에서 자신의 전개식에서 세 번째 항의 부호가 왜 그런지 처음부터 설명할 수 없는 연구자

Frank Herbert와 도구의 위험

  • Frank Herbert의 God Emperor of Dune 에서 인용: "그런 기계들은 실제로 무엇을 하는가? 생각 없이 할 수 있는 것들의 수를 늘린다. 생각 없이 하는 것들, 거기에 진짜 위험이 있다"
  • 이 소설 속 관찰과 현실 연구실 사이의 거리가 불편할 만큼 좁아진 상황

올바른 도구 사용의 경계

  • 연구 그룹의 동료들이 AI 에이전트로 좋은 결과를 내지만, 그 패턴에는 공통점이 있음
    • 코드가 무엇을 해야 하는지 알고 나서 에이전트에 작성 요청
    • 논문이 무엇을 말해야 하는지 알고 나서 표현 다듬기 도움 요청
    • 모든 함수, 파라미터, 모델링 선택을 직접 설명할 수 있음
    • 느린 방식으로 수년간 쌓은 지식 위에 도구를 얹은 것
  • 이들에게 내일 모든 AI 서비스가 종료된다면: 속도는 느려지지만 방향을 잃지 않음
  • 반면 신입 박사과정 학생들에게서 관찰되는 패턴:
    • 교과서보다 먼저 에이전트에 손을 뻗음
    • 논문을 직접 읽는 대신 Claude에게 요약 요청
    • Python으로 수학 모델을 직접 구현하려 시도하는 대신, 실패와 오류 메시지와 재시도의 과정을 건너뜀
    • 실패가 커리큘럼이고 오류 메시지가 강의계획서

인지 외주화의 돌이키기 어려운 경계

  • LLM 활용이 허용되는 경우:
    • 사고의 반향판으로 활용
    • 알고 있는 내용을 표현할 때 Matplotlib 키워드처럼 문법 번역 도구로 활용
    • BibTeX 형식 규칙 조회 등 실행의 마지막 단계 마무리
  • 경계를 넘는 순간:
    • 방법론적 선택을 기계에 맡기는 순간
    • 데이터가 무엇을 의미하는지 기계가 결정하도록 두는 순간
    • 기계가 논리를 구성하는 동안 고개만 끄덕이는 순간
    • 시간을 절약한 것이 아니라, 그 시간이 줘야 할 경험을 포기한 것

Publish-or-Perish와 Bob의 합리적 선택

  • Bob은 어리석은 것이 아니라, 주어진 인센티브에 합리적으로 반응
    • 논문 1편이 아닌 3편을 내면 경쟁적 포스닥 확보 가능성이 높아지는 구조
    • 좋은 포스닥 → 좋은 펠로십 → 테뉴어 트랙, 각 단계가 이전 단계를 복리로 강화
  • 그러나 동일한 경력 사다리는 결국 에이전트가 제공할 수 없는 것을 요구
    • 좋은 문제를 식별하는 능력
    • 결과가 이상하다는 것을 감지하는 직관
    • 직접 해봤다는 경험에서 오는 자신감으로 타인의 연구를 지도하는 능력
  • 처음 5년의 학습을 건너뛰고 이후 20년을 버티는 것은 불가능
  • 가장 어려운 것: 24세의 미래에 불안한 연구자가 단기 산출물보다 장기적 이해를 우선시하는 것

수백 년의 교육학이 채팅 창에 패배한 역설

  • 모든 물리학 교재는 챕터 말미에 연습문제를 두며, 모든 물리학 교수는 동일한 말을 반복
    • "타인이 푸는 것을 보는 것만으로는 물리학을 배울 수 없다, 직접 연필을 들어야 한다"
  • 해답지를 읽고 고개를 끄덕이는 것은 이해처럼 느껴지지만 이해가 아님
    • 시험에서 실패한 학생들이 뼈저리게 아는 사실
  • LLM이 편리해진 순간, 우리는 이 사실을 집단적으로 잊어버린 것처럼 행동
  • 세렌디피티는 효율에서 오지 않음
    • 문제가 사는 공간에서 충분한 시간을 보내고, 손을 더럽히고, 아무도 시키지 않은 실수를 하고, 아무도 배우라 하지 않은 것을 배우는 과정에서 옴

결론: 기계가 아닌 우리에 대한 걱정

  • 5년 후 Alice는 자신의 연구비를 신청하고, 자신의 문제를 선택하고, 자신의 학생을 지도할 것
    • 어떤 질문을 해야 하는지 알고, 새 데이터셋을 보며 무언가 잘못됐음을 직관으로 감지할 수 있음
  • Bob은 괜찮을 것: 좋은 CV, 아마도 좋은 직장, 2031년 버전의 Claude를 사용해 결과를 생산, 그 결과는 과학처럼 보일 것
  • 기계는 괜찮아요. 나는 우리가 걱정됩니다
Hacker News 의견들
  • Schwartz의 실험이 흥미로웠음. Claude가 세밀한 감독 아래 물리학 논문 초안을 며칠 만에 완성했지만, 실제로는 결과를 조작하고 잘못된 계수를 만들어냈음. Schwartz가 오류를 잡을 수 있었던 건 수십 년간의 경험 덕분이었음. 즉, 감독 자체가 물리학이었던 셈임. LLM은 Schwartz 같은 전문가에게만 유용하며, LLM을 써서 Schwartz가 될 수는 없음. 그래서 우리는 Alice 같은 사람을 키워야 함. 그렇지 않으면 다음 세대는 LLM이 만든 결과를 평가할 능력을 잃게 될 위험이 큼

    • 지금의 고용 구조로는 이런 장기적 육성이 불가능하다고 봄. 기업은 단기 성과에 집중하고, AI 임원들은 Schwartz가 사라지기 전에 그가 필요 없기를 바라는 듯함. 신입을 10년간 LLM 없이 훈련시킬 유인이 없음
    • 해결책은 간단함. 초보자에게 LLM 도움을 바로 주지 말고, 직접 문제를 풀게 하는 문화를 장려해야 함. 구술시험 같은 제도를 다시 도입해, LLM이 틀렸을 때 그걸 구분할 수 있는 사람을 길러야 함
    • 사실 이건 가설적 사고 실험일 뿐임. Bob이 Alice보다 덜 배우고 있다는 증거는 없음. 오히려 Bob이 더 넓은 문제를 빠르게 탐색하며 깊은 이해를 얻을 수도 있음. 결국 품질 관리를 학계가 어떻게 하느냐가 관건임
    • “LLM을 써서 Schwartz가 될 수 없다”는 전제는 논리적 모순임. Bob이 LLM을 통해 유효한 결과를 냈다면, 이미 필요한 감독 능력을 습득한 것임. Bob은 단순히 위임한 게 아니라 요약, 개념 정리, 지식 추출을 통해 학습하고 있음
    • 학계가 논문 발표를 구두 중심으로 바꾸는 것도 방법임. 직접 발표하고 질의응답을 거쳐야 출판할 수 있게 하면, LLM이 대신 써주는 글보다 진짜 이해를 평가할 수 있음
  • 에이전트는 사라지지 않을 것임. Bob이 에이전트로 일을 해낸다면, 결국 일을 해낸 것임. 하지만 나는 지적 자극이 있는 프로그래밍의 상실을 아쉬워함. 이제 일의 본질이 달라졌고, 그게 나에게 맞는지 고민 중임. 시장이 이런 기술적 깊이를 더 이상 중시하지 않는다면, 문제는 Bob이 아니라 나의 만족감일 뿐임

    • 문제는 Bob이 에이전트로 해결할 수 없는 복잡한 문제를 만날 때임. 요리 대신 전자레인지 음식을 사는 것과 같음. 결국 시장은 LLM이 못 하는 일을 할 수 있는 사람을 계속 필요로 할 것임
    • 이런 현실에 순응하는 분위기가 슬픔. 품질보다 속도만 중시하는 문화에 조용히 저항할 용기를 내야 함. 한 명이라도 뜻이 맞는 사람과 이야기해보길 권함
    • 하지만 이 글의 요점은 “AI로 결과를 내는 능력”이 아님. 목표는 Alice를 길러내는 것임. Bob+AI가 같은 결과를 내더라도, 그건 프로그램의 실패임
    • 에이전트는 계속 존재하겠지만, 클라우드 비용이 오르면 복잡한 작업은 다시 어려워질 수 있음
    • 나에게 더 두려운 건, AI가 반복 작업을 대신해주면서 코드베이스에 대한 심리적 거리감이 커지는 현상임. 코드의 구조를 머릿속에 그리지 못하면, 결국 산업 전체의 기술 기반이 약해질 위험이 있음
    • Claude에게 코드를 깊이 설명하게 시키는 습관을 들이면 좋음. 단순히 결과를 검토하는 대신, 왜 그렇게 작동하는지 이해하는 과정이 필요함
  • LLM은 프로토타입 제작에 탁월함. Bob은 하루 만에 논문 초안을 만들고 수십 가지 가설을 실험할 수 있음. 오류를 추적하느라 몇 주를 낭비하지 않음. 이후에 원리를 배우고 싶다면 LLM에게 설명을 요청하면 됨. 이런 태도를 가진 Bob은 Alice보다 훨씬 빠르게 성장할 것임. 결국 이해하려는 의지가 있는 사람에게 LLM은 아무것도 빼앗지 않음

    • 하지만 현실의 Bob은 대부분 그럴 시간이 없음. 다음 프로젝트를 위해 또 LLM을 돌릴 뿐임. 결국 이해의 한계에 부딪히게 됨
    • LLM이 만든 오류를 Bob은 알아차리지 못할 가능성이 큼. 실제 산업에서는 이런 환각된 결과물이 바로 실패로 이어짐
    • “LLM이 만든 걸 이해할 수 있다”는 믿음이 착각일 수 있음. 진짜 학습은 직접 시도하고 실패하는 과정에서 일어남. 해답을 읽고 고개 끄덕이는 건 이해가 아님
  • “LLM 덕분에 이제 특정 기술이 필요 없게 됐다”는 논리는 잘못된 전제임. 학계의 목표는 따뜻한 감정이 아니라 유용한 결과를 내는 것임. Bob이 에이전트와 함께 결과를 냈다면, 그건 Alice와 같은 성과임

    • 하지만 LLM은 복잡하거나 새로운 문제에서는 작동하지 않음. 그때는 Alice의 숙련도가 필요함. 결국 “고숙련 인간 > LLM > 저숙련 인간” 구조가 될 것임
    • 현실적으로 많은 전공자는 학문 자체보다 일반화된 역량으로 취업함. 학문적 결과보다 학습 능력과 사고력 자체가 더 중요한 자산이 됨
    • 문제는, LLM에 의존하는 세대가 투자금 기반 생태계에 묶여 있다는 점임. 만약 AI 기업이 수익을 못 내면, 그 기반이 무너질 위험이 있음
    • 어떤 활동은 결과보다 과정에서 얻는 경험이 더 중요함. 그걸 잃는다면 학습의 본질이 사라짐
  • “모델이 곧 좋아질 거다”라는 말은 과도한 낙관론임. 복잡한 문제일수록 학습, 검증, 계산 비용이 기하급수적으로 늘어남. 단순히 모델을 키우는 건 지속 불가능한 접근

  • 이 글의 요지는 맞음. React 같은 고수준 추상화처럼, 대부분의 경우 LLM이 충분히 유용하지만, 1%의 예외 상황에서는 내부를 이해해야 함. 나도 대부분의 코드를 에이전트로 짜지만, 여전히 버그를 잡기 위한 이해력이 필요함

    • 그렇다면 이미 이런 문제를 겪고도 세상은 잘 돌아가고 있는 것 아님?
    • 내 경험상 Claude Code가 생성하는 Rust 코드 품질은 1%보다 훨씬 자주 문제를 일으킴
    • LLM은 트랜지스터처럼 단순하지 않음. 오히려 생물학적 시스템에 가깝고, 예측 불가능함. 그래서 안전하게 쓰려면 조련사 같은 감독이 필요함
  • 아이러니하게도, 이 글 자체가 AI가 쓴 듯한 문체를 풍김. “It’s not X, it’s Y” 같은 반복적 구조가 많고, AI 텍스트 감지기에서도 높은 확률로 탐지됨. 주제상, 일부라도 AI로 작성했다면 명시했어야 정직했을 것

    • 맞음. 이런 과장된 대조 문장은 LLM의 흔한 패턴임. 인간은 이렇게 자주 쓰지 않음
  • “LLM이 코드를 빨리 만들어주면 좋지 않냐”는 주장에 의문이 듦. 그렇다면 10배 빠른 개발자들이 만든 혁신적인 제품은 어디 있나? 수년이 지났지만, 눈에 띄는 건 LLM 자체뿐임

    • 마케팅이 여전히 가장 큰 장벽임. 제품을 파는 건 여전히 인간의 영역임
    • Anthropic이 수천 개의 에이전트를 풀어 소프트웨어 시장을 독점할 수도 있는데, 왜 아직 안 하는지 궁금함
    • 너무 빠른 속도가 오히려 문제임. 제품-시장 적합성을 찾는 과정은 느리고 섬세해야 함
    • 어쩌면 10배 개발자들이 이제 막 결승선에 다다르고 있는 중일 수도 있음
  • 현실적으로 Alice도 AI를 적절히 활용할 수 있었을 것임. Bob의 방식이 잘못된 건 아니며, 그가 배우지 못한다면 그건 그의 문제일 뿐임. 결국 각자의 선택이 서로의 커리어에 영향을 주지 않음