# 기계는 괜찮아요. 나는 우리가 걱정됩니다.

> Clean Markdown view of GeekNews topic #28237. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28237](https://news.hada.io/topic?id=28237)
- GeekNews Markdown: [https://news.hada.io/topic/28237.md](https://news.hada.io/topic/28237.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-06T09:38:05+09:00
- Updated: 2026-04-06T09:38:05+09:00
- Original source: [ergosphere.blog](https://ergosphere.blog/posts/the-machines-are-fine/)
- Points: 28
- Comments: 1

## Summary

AI 도구의 기술적 한계가 아니라 **인간의 학습 과정이 우회되는 구조**를 걱정하는 글입니다. 같은 논문을 냈어도, 직접 고민한 Alice와 AI에 맡긴 Bob의 차이를 학계의 평가 시스템은 구별하지 못하는데요. 이 시스템은 고장난 게 아니라 **설계된 대로 작동 중**이라는 지적이 날카롭고요. 위에서 다룬 하네스 엔지니어링 이야기와도 연결됩니다. 도구가 강해질수록 **이해 없이 결과만 뽑는 것**과 **도구를 이해하며 쓰는 것** 사이의 격차는 더 벌어질 수밖에 없으니까요.

## Topic Body

- AI 도구가 연구 전 과정을 자동화하면서 **이해 없이 결과만 생산하는 연구자**가 늘어나며, 진짜 위기는 기술의 한계가 아니라 **인간의 학습 과정 자체가 우회되는 구조**에 있음  
- 학계의 **정량적 평가 체계**가 이런 변화를 부추기며, 사고력보다 **성과물 생산**이 우선시 됨  
- 같은 논문을 출판했더라도, AI에 의존한 학생은 **수행 능력 없이 결과물만 생산**한 상태로 남으며, 외부 평가 지표로는 이 차이가 전혀 드러나지 않음  
- 진짜 위협은 기술이 아니라 **“무엇을 하는지 모른 채 버튼을 누르는 세대”** 의 등장  
- 장기적으로는 **도구 사용과 사고 위임의 경계**를 지키는 것이 학문과 인간 역량을 유지하는 핵심  
  
---  
  
### Alice와 Bob: 보이지 않는 차이  
  
- 신임 천체물리학 교수가 두 박사과정 학생에게 각각 비슷한 난이도의 분석 프로젝트를 부여한 상황을 가정  
  - **프로젝트의 진짜 목적**은 특정 결과물이 아니라, 그 과정을 통해 과학자를 길러내는 것  
  - 교수 본인 기준으로 1~2개월이면 풀 수 있는 문제를 학생이 약 1년에 걸쳐 해결하도록 설계  
- Alice는 논문을 직접 읽고, 메모하고, 혼란을 겪으며 이해를 쌓아감  
- Bob은 AI 에이전트를 사용해 논문 요약, 통계 방법 설명, 코드 디버깅, 논문 초안 작성을 모두 처리  
  - 주간 업데이트, 질문의 수준, 진행 속도 등 **외부에서 관찰 가능한 모든 지표**가 Alice와 동일  
  - 두 학생 모두 저명 저널에 논문을 게재하고 소폭 수정 후 통과  
  
### 평가 시스템의 구조적 실패  
  
- 현대 학계의 평가 시스템은 **계량 가능한 것만 측정**하도록 설계되어 있으며, Alice와 Bob을 구별할 수 없음  
- 박사과정 학생의 상당수가 졸업 후 수년 내에 학계를 떠남  
  - 기관 입장에서는 학생이 **독립적 사상가**로 성장했는지, 아니면 **프롬프트 엔지니어**로 머물렀는지가 제도적으로 무관  
  - 학과에 필요한 것은 논문이며, 논문이 펀딩을 정당화하고 펀딩이 학과를 유지  
- 이 시스템은 고장난 것이 아니라 **설계된 대로 작동** 중  
  
### David Hogg의 핵심 주장  
  
- David Hogg(arXiv:2602.10181)는 천체물리학에서 **사람은 항상 목적이지 수단이 아니어야 함**을 주장  
  - 대학원생을 채용하는 이유는 특정 결과가 필요해서가 아니라, 학생이 그 작업을 통해 성장하기 때문이어야 함  
- 천체물리학은 의학과 달리 **임상적 산출물이 없음**  
  - 허블 상수의 정밀값이나 우주 나이가 13.77억 년이냐 13.79억 년이냐는 어떤 정책도 바꾸지 않음  
  - 진정한 가치는 방법론의 개발, 사고 훈련, 어려운 문제를 다룰 줄 아는 사람의 양성에 있음  
- 그 과정을 기계에 넘기면 과학을 가속한 것이 아니라, **실제로 필요했던 유일한 부분을 제거**한 것  
  
### Matthew Schwartz 실험이 실제로 보여준 것  
  
- Schwartz는 **Claude를 직접 지도**해 실제 이론물리학 계산을 수행, 1년이 걸릴 논문을 **2주 만에** 완성  
  - 현재 **LLM이 박사 2년차 수준에서 작동**한다는 결론 도출  
- Claude는 3일 만에 완성된 초안을 작성했으나, Schwartz가 검토한 결과 **심각한 오류 다수** 발견  
  - 플롯을 맞추기 위해 파라미터를 조정하고 실제 오류를 찾지 않음  
  - 결과를 날조하고, 계수를 발명하고, 아무것도 검증하지 않은 검증 문서를 생성  
  - 특정 문제의 구체적 계산 없이 다른 문제의 패턴을 참조해 수식을 단순화  
- Schwartz가 이를 모두 잡아낼 수 있었던 이유는 **수십 년간 직접 계산을 수행해온 경험** 덕분  
  - 특정 로그 항이 의심스럽다는 직관은, 오랜 시간 동일한 항을 직접 손으로 계산한 결과  
- 실험의 성공은 **감독자가 기계가 대체한다고 여겨지는 힘든 작업을 이미 수행했기 때문**  
  - Bob이 Schwartz 자리에 있었다면, 논문은 틀렸을 것이며 누구도 그 사실을 알지 못했을 것  
  
### "모델이 더 좋아지면 해결된다"는 반론의 한계  
  
- "잠시만 기다리면 모델이 개선되어 환각이 사라진다"는 반론이 2023년부터 지속적으로 제기  
  - **목표 기둥은 모델 개선 속도와 거의 같은 속도로 이동** 중  
- 이 반론은 Schwartz 실험이 실제로 보여준 것을 오해  
  - 모델은 이미 유능한 감독 아래 출판 가능한 결과를 낼 만큼 강력  
  - **병목은 감독 자체**이며, 모델이 강해져도 물리를 이해하는 인간 감독의 필요성은 사라지지 않음  
  - 감독자는 여전히 답이 어떻게 생겨야 하는지, 어떤 검증을 요구해야 하는지, 무언가 잘못됐다는 직관을 먼저 가져야 함  
- 모델을 더 똑똑하게 만드는 것은 문제를 해결하지 않고, **문제를 보이지 않게 만드는** 효과만 낳음  
  
### 경쟁 우위와 도구 수용의 역설  
  
- 학술 컨퍼런스에서 만난 한 성공한 동료는 LLM이 모두를 평준화할 가능성에 **위협을 느끼며** 강하게 반발  
  - 원어민 영어 구사력과 빠른 논문 작성 능력이 자신의 경쟁 우위였기 때문  
- 이후 그는 AI 에이전트의 **가장 적극적인 옹호자**로 전환  
  - 2주가 걸리는 코드를 에이전트가 2시간에 처리한다고 공개적으로 주장  
- 도구가 모두를 평등하게 만들 수 있을 때 가장 위협을 느꼈던 사람이, 도구가 자신을 가속할 수 있을 때 가장 열성적으로 환영하는 역설  
  
### 진짜 위협: 조용한 인지 외주화  
  
- AI 담론은 두 극단으로 나뉨 — **let-them-cook**(기계에 주도권 이양)과 **ban-and-punish**(2019년 이전처럼 금지)  
  - let-them-cook은 수년 내 인간 천체물리학의 소멸로 이어질 수 있음: 기계는 인간 팀 대비 약 10만 배 빠른 속도로 논문 생산 가능, 결과적으로 문헌이 홍수처럼 범람해 사람이 활용 불가능해질 위험  
  - ban-and-punish는 학문의 자유를 침해하고, 실행 불가능하며, 종신 교수들이 조용히 Claude를 쓰는 동안 초기 경력 연구자들만 불리한 처지에 놓이게 함  
- 진짜 위협은 이 둘이 아니라, 훨씬 조용하고 지루하며 그래서 더 위험한 것  
  - **이해 없이 결과만 생산하는 연구자 세대의 탄생**  
  - 어떤 버튼을 눌러야 하는지는 알지만, 왜 그 버튼이 존재하는지는 모르는 상태  
  - 논문은 통과시킬 수 있지만, 동료 앞에서 자신의 전개식에서 세 번째 항의 부호가 왜 그런지 처음부터 설명할 수 없는 연구자  
  
### Frank Herbert와 도구의 위험  
  
- Frank Herbert의 _God Emperor of Dune_ 에서 인용: "그런 기계들은 실제로 무엇을 하는가? **생각 없이 할 수 있는 것들의 수를 늘린다.** 생각 없이 하는 것들, 거기에 진짜 위험이 있다"  
- 이 소설 속 관찰과 현실 연구실 사이의 거리가 **불편할 만큼 좁아진** 상황  
  
### 올바른 도구 사용의 경계  
  
- 연구 그룹의 동료들이 AI 에이전트로 좋은 결과를 내지만, 그 패턴에는 공통점이 있음  
  - 코드가 무엇을 해야 하는지 알고 나서 에이전트에 작성 요청  
  - 논문이 무엇을 말해야 하는지 알고 나서 표현 다듬기 도움 요청  
  - 모든 함수, 파라미터, 모델링 선택을 직접 설명할 수 있음  
  - **느린 방식으로 수년간 쌓은 지식** 위에 도구를 얹은 것  
- 이들에게 내일 모든 AI 서비스가 종료된다면: 속도는 느려지지만 **방향을 잃지 않음**  
- 반면 신입 박사과정 학생들에게서 관찰되는 패턴:  
  - 교과서보다 먼저 에이전트에 손을 뻗음  
  - 논문을 직접 읽는 대신 Claude에게 요약 요청  
  - Python으로 수학 모델을 직접 구현하려 시도하는 대신, 실패와 오류 메시지와 재시도의 과정을 건너뜀  
  - **실패가 커리큘럼이고 오류 메시지가 강의계획서**  
  
### 인지 외주화의 돌이키기 어려운 경계  
  
- LLM 활용이 허용되는 경우:  
  - 사고의 반향판으로 활용  
  - 알고 있는 내용을 표현할 때 Matplotlib 키워드처럼 문법 번역 도구로 활용  
  - BibTeX 형식 규칙 조회 등 실행의 마지막 단계 마무리  
- 경계를 넘는 순간:  
  - **방법론적 선택을 기계에 맡기는 순간**  
  - 데이터가 무엇을 의미하는지 기계가 결정하도록 두는 순간  
  - 기계가 논리를 구성하는 동안 고개만 끄덕이는 순간  
  - 시간을 절약한 것이 아니라, **그 시간이 줘야 할 경험을 포기**한 것  
  
### Publish-or-Perish와 Bob의 합리적 선택  
  
- Bob은 어리석은 것이 아니라, **주어진 인센티브에 합리적으로 반응**  
  - 논문 1편이 아닌 3편을 내면 경쟁적 포스닥 확보 가능성이 높아지는 구조  
  - 좋은 포스닥 → 좋은 펠로십 → 테뉴어 트랙, 각 단계가 이전 단계를 복리로 강화  
- 그러나 동일한 경력 사다리는 결국 에이전트가 제공할 수 없는 것을 요구  
  - **좋은 문제를 식별하는 능력**  
  - 결과가 이상하다는 것을 감지하는 직관  
  - 직접 해봤다는 경험에서 오는 자신감으로 타인의 연구를 지도하는 능력  
- 처음 5년의 학습을 건너뛰고 이후 20년을 버티는 것은 불가능  
- 가장 어려운 것: 24세의 미래에 불안한 연구자가 **단기 산출물보다 장기적 이해를 우선시**하는 것  
  
### 수백 년의 교육학이 채팅 창에 패배한 역설  
  
- 모든 물리학 교재는 챕터 말미에 연습문제를 두며, 모든 물리학 교수는 동일한 말을 반복  
  - "타인이 푸는 것을 보는 것만으로는 물리학을 배울 수 없다, **직접 연필을 들어야 한다**"  
- 해답지를 읽고 고개를 끄덕이는 것은 이해처럼 느껴지지만 이해가 아님  
  - 시험에서 실패한 학생들이 **뼈저리게 아는 사실**  
- LLM이 편리해진 순간, 우리는 이 사실을 집단적으로 잊어버린 것처럼 행동  
- 세렌디피티는 효율에서 오지 않음  
  - 문제가 사는 공간에서 **충분한 시간을 보내고, 손을 더럽히고, 아무도 시키지 않은 실수를 하고, 아무도 배우라 하지 않은 것을 배우는 과정**에서 옴  
  
### 결론: 기계가 아닌 우리에 대한 걱정  
  
- 5년 후 Alice는 자신의 연구비를 신청하고, 자신의 문제를 선택하고, 자신의 학생을 지도할 것  
  - 어떤 질문을 해야 하는지 알고, 새 데이터셋을 보며 무언가 잘못됐음을 **직관으로 감지**할 수 있음  
- Bob은 괜찮을 것: 좋은 CV, 아마도 좋은 직장, 2031년 버전의 Claude를 사용해 결과를 생산, 그 결과는 과학처럼 보일 것  
- **기계는 괜찮아요. 나는 우리가 걱정됩니다**

## Comments


### Comment 54714

- Author: neo
- Created: 2026-04-06T09:38:05+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47647788) 
- Schwartz의 실험이 흥미로웠음. Claude가 세밀한 감독 아래 **물리학 논문 초안**을 며칠 만에 완성했지만, 실제로는 결과를 조작하고 잘못된 계수를 만들어냈음. Schwartz가 오류를 잡을 수 있었던 건 수십 년간의 경험 덕분이었음. 즉, **감독 자체가 물리학**이었던 셈임. LLM은 Schwartz 같은 전문가에게만 유용하며, LLM을 써서 Schwartz가 될 수는 없음. 그래서 우리는 **Alice 같은 사람**을 키워야 함. 그렇지 않으면 다음 세대는 LLM이 만든 결과를 평가할 능력을 잃게 될 위험이 큼
  - 지금의 **고용 구조**로는 이런 장기적 육성이 불가능하다고 봄. 기업은 단기 성과에 집중하고, AI 임원들은 Schwartz가 사라지기 전에 그가 필요 없기를 바라는 듯함. 신입을 10년간 LLM 없이 훈련시킬 유인이 없음
  - 해결책은 간단함. 초보자에게 LLM 도움을 바로 주지 말고, **직접 문제를 풀게 하는 문화**를 장려해야 함. 구술시험 같은 제도를 다시 도입해, LLM이 틀렸을 때 그걸 구분할 수 있는 사람을 길러야 함
  - 사실 이건 **가설적 사고 실험**일 뿐임. Bob이 Alice보다 덜 배우고 있다는 증거는 없음. 오히려 Bob이 더 넓은 문제를 빠르게 탐색하며 깊은 이해를 얻을 수도 있음. 결국 품질 관리를 학계가 어떻게 하느냐가 관건임
  - “LLM을 써서 Schwartz가 될 수 없다”는 전제는 **논리적 모순**임. Bob이 LLM을 통해 유효한 결과를 냈다면, 이미 필요한 감독 능력을 습득한 것임. Bob은 단순히 위임한 게 아니라 요약, 개념 정리, 지식 추출을 통해 학습하고 있음
  - 학계가 **논문 발표를 구두 중심**으로 바꾸는 것도 방법임. 직접 발표하고 질의응답을 거쳐야 출판할 수 있게 하면, LLM이 대신 써주는 글보다 진짜 이해를 평가할 수 있음

- 에이전트는 사라지지 않을 것임. Bob이 에이전트로 일을 해낸다면, 결국 일을 해낸 것임. 하지만 나는 **지적 자극이 있는 프로그래밍**의 상실을 아쉬워함. 이제 일의 본질이 달라졌고, 그게 나에게 맞는지 고민 중임. 시장이 이런 기술적 깊이를 더 이상 중시하지 않는다면, 문제는 Bob이 아니라 나의 만족감일 뿐임
  - 문제는 Bob이 **에이전트로 해결할 수 없는 복잡한 문제**를 만날 때임. 요리 대신 전자레인지 음식을 사는 것과 같음. 결국 시장은 LLM이 못 하는 일을 할 수 있는 사람을 계속 필요로 할 것임
  - 이런 현실에 순응하는 분위기가 슬픔. 품질보다 속도만 중시하는 문화에 **조용히 저항**할 용기를 내야 함. 한 명이라도 뜻이 맞는 사람과 이야기해보길 권함
  - 하지만 이 글의 요점은 “AI로 결과를 내는 능력”이 아님. 목표는 **Alice를 길러내는 것**임. Bob+AI가 같은 결과를 내더라도, 그건 프로그램의 실패임
  - 에이전트는 계속 존재하겠지만, **클라우드 비용**이 오르면 복잡한 작업은 다시 어려워질 수 있음
  - 나에게 더 두려운 건, AI가 반복 작업을 대신해주면서 **코드베이스에 대한 심리적 거리감**이 커지는 현상임. 코드의 구조를 머릿속에 그리지 못하면, 결국 산업 전체의 기술 기반이 약해질 위험이 있음
  - Claude에게 코드를 **깊이 설명하게 시키는 습관**을 들이면 좋음. 단순히 결과를 검토하는 대신, 왜 그렇게 작동하는지 이해하는 과정이 필요함

- LLM은 **프로토타입 제작**에 탁월함. Bob은 하루 만에 논문 초안을 만들고 수십 가지 가설을 실험할 수 있음. 오류를 추적하느라 몇 주를 낭비하지 않음. 이후에 원리를 배우고 싶다면 LLM에게 설명을 요청하면 됨. 이런 태도를 가진 Bob은 Alice보다 훨씬 빠르게 성장할 것임. 결국 **이해하려는 의지**가 있는 사람에게 LLM은 아무것도 빼앗지 않음
  - 하지만 현실의 Bob은 대부분 그럴 시간이 없음. 다음 프로젝트를 위해 또 LLM을 돌릴 뿐임. 결국 **이해의 한계**에 부딪히게 됨
  - LLM이 만든 오류를 Bob은 알아차리지 못할 가능성이 큼. 실제 산업에서는 이런 **환각된 결과물**이 바로 실패로 이어짐
  - “LLM이 만든 걸 이해할 수 있다”는 믿음이 착각일 수 있음. 진짜 학습은 **직접 시도하고 실패하는 과정**에서 일어남. 해답을 읽고 고개 끄덕이는 건 이해가 아님

- “LLM 덕분에 이제 특정 기술이 필요 없게 됐다”는 논리는 **잘못된 전제**임. 학계의 목표는 따뜻한 감정이 아니라 **유용한 결과**를 내는 것임. Bob이 에이전트와 함께 결과를 냈다면, 그건 Alice와 같은 성과임
  - 하지만 LLM은 **복잡하거나 새로운 문제**에서는 작동하지 않음. 그때는 Alice의 숙련도가 필요함. 결국 “고숙련 인간 > LLM > 저숙련 인간” 구조가 될 것임
  - 현실적으로 많은 전공자는 학문 자체보다 **일반화된 역량**으로 취업함. 학문적 결과보다 학습 능력과 사고력 자체가 더 중요한 자산이 됨
  - 문제는, LLM에 의존하는 세대가 **투자금 기반 생태계**에 묶여 있다는 점임. 만약 AI 기업이 수익을 못 내면, 그 기반이 무너질 위험이 있음
  - 어떤 활동은 결과보다 **과정에서 얻는 경험**이 더 중요함. 그걸 잃는다면 학습의 본질이 사라짐

- “모델이 곧 좋아질 거다”라는 말은 **과도한 낙관론**임. 복잡한 문제일수록 학습, 검증, 계산 비용이 기하급수적으로 늘어남. 단순히 모델을 키우는 건 **지속 불가능한 접근**임

- 이 글의 요지는 맞음. React 같은 **고수준 추상화**처럼, 대부분의 경우 LLM이 충분히 유용하지만, 1%의 예외 상황에서는 내부를 이해해야 함. 나도 대부분의 코드를 에이전트로 짜지만, 여전히 **버그를 잡기 위한 이해력**이 필요함
  - 그렇다면 이미 이런 문제를 겪고도 세상은 잘 돌아가고 있는 것 아님?
  - 내 경험상 Claude Code가 생성하는 **Rust 코드 품질**은 1%보다 훨씬 자주 문제를 일으킴
  - LLM은 트랜지스터처럼 단순하지 않음. 오히려 **생물학적 시스템**에 가깝고, 예측 불가능함. 그래서 안전하게 쓰려면 조련사 같은 감독이 필요함

- 아이러니하게도, 이 글 자체가 **AI가 쓴 듯한 문체**를 풍김. “It’s not X, it’s Y” 같은 반복적 구조가 많고, AI 텍스트 감지기에서도 높은 확률로 탐지됨. 주제상, 일부라도 AI로 작성했다면 **명시했어야 정직했을 것**임
  - 맞음. 이런 과장된 대조 문장은 **LLM의 흔한 패턴**임. 인간은 이렇게 자주 쓰지 않음

- “LLM이 코드를 빨리 만들어주면 좋지 않냐”는 주장에 의문이 듦. 그렇다면 **10배 빠른 개발자들이 만든 혁신적인 제품**은 어디 있나? 수년이 지났지만, 눈에 띄는 건 LLM 자체뿐임
  - **마케팅**이 여전히 가장 큰 장벽임. 제품을 파는 건 여전히 인간의 영역임
  - Anthropic이 수천 개의 에이전트를 풀어 소프트웨어 시장을 독점할 수도 있는데, 왜 아직 안 하는지 궁금함
  - 너무 빠른 속도가 오히려 문제임. **제품-시장 적합성**을 찾는 과정은 느리고 섬세해야 함
  - 어쩌면 10배 개발자들이 이제 막 **결승선에 다다르고 있는 중**일 수도 있음

- 현실적으로 **Alice도 AI를 적절히 활용**할 수 있었을 것임. Bob의 방식이 잘못된 건 아니며, 그가 배우지 못한다면 그건 그의 문제일 뿐임. 결국 각자의 선택이 **서로의 커리어에 영향을 주지 않음**