지식 노동의 시뮬라크럼(허상)

(blog.happyfellow.dev)

1P by GN⁺ 7시간전 | ★ favorite | 댓글 1개

LLM이 표면적 품질을 완벽히 모방하면서, 지식 노동의 실제 품질을 판단하던 대리 지표(proxy measure)가 무력화되고 있음
지식 노동은 본질적 품질 평가가 어려워 문서의 형식적 완성도 같은 대리 지표에 의존해 왔으나, LLM이 이 대리 지표를 쉽게 통과시킴
AI가 작성한 코드와 보고서는 겉보기에 전문적이지만, 실질적 정확성이나 유용성은 검증되지 않은 채 통과되는 구조
LLM 자체도 "정답인가"가 아니라 "그럴듯해 보이는가"로 훈련되어, 동일한 대리 지표 문제를 내재하고 있음
수십억 달러를 투자해 만든 시스템이 실제 업무가 아닌 업무의 허상을 수행하는 도구로 쓰이고 있다는 경고

대리 지표(Proxy Measure)의 역할과 한계

시장 분석 보고서를 받았을 때, 날짜 오류·오탈자·그래프 중복 같은 표면적 결함만으로도 보고서 전체를 폐기하는 경우가 흔함
실제로 관심 있는 것은 보고서가 현실을 반영하고 좋은 의사결정으로 이끄는지 여부이지만, 이를 직접 검증하는 비용이 높음
표면적 품질은 검증 비용이 낮고, 실제 품질과 충분히 상관관계가 있어서 대리 지표로 기능해 왔음
모든 지식 노동에 이 문제가 존재하며, 타인의 작업 품질을 객관적으로 판단하려면 많은 노력이 필요하므로 대리 지표에 크게 의존하는 구조

LLM이 대리 지표를 무력화한 메커니즘

대리 지표는 인센티브 불일치(misaligned incentives)를 억제하는 역할을 해왔으나, LLM이 이를 깨뜨림
LLM은 실제 작업의 품질을 재현하지 않으면서도 글쓰기 스타일을 시뮬레이션하는 데 탁월함
ChatGPT에 시장 분석 보고서를 요청하면, 결과물이 최상위 컨설팅펌의 전문가가 작성한 것처럼 보임
소프트웨어 엔지니어가 AI로 수천 줄의 코드를 작성하면, 몇 초간 훑어보는 수준에서는 고품질 코드처럼 보임
- 동료들도 AI에 코드 리뷰를 맡기고, 발견된 문제를 기계적으로 처리하면서 작업의 의례(ritual)만 유지되고 실질적 품질은 담보되지 않음

LLM 자체에 내재된 동일한 문제

LLM 훈련 과정 자체도 "답이 참인가" 또는 "답이 유용한가"를 평가하지 않음
훈련 기준은 "훈련 데이터에 나올 법한 답인가" 또는 "RLHF 판정자가 만족하는 답인가"에 해당
결과적으로 LLM은 고품질 산출물처럼 보이는 출력을 생산하도록 최적화되어 있으며, 그 최적화 능력이 매우 뛰어남

현재 상황에 대한 경고

수십억 달러를 투입해 만든 시스템이 업무의 시뮬라크럼(허상)을 수행하는 데 사용되고 있음
기업들은 토큰 소비량 리더보드에서 1위를 차지하려고 경쟁 중
작업자들이 LLM 산출물을 더 많이 생산할수록, 그 산출물을 깊이 살펴보는 시간은 줄어듦
남은 것은 훑어보고 "LGTM"을 붙인 뒤 17번째 Claude Code 세션을 여는 것뿐

▲

GN⁺ 7시간전 [-]

Hacker News 의견들

글에서 말하는 것처럼 오탈자나 사소한 오류 같은 대리 지표로 인간의 지식노동 품질을 가늠하기 쉬웠다는 주장도, 그런 단서가 AI에는 없어서 문제라는 주장도 둘 다 완전히 동의되진 않음
개념적으로는 형편없지만 사실관계는 맞고 형식도 멀쩡한 인간 산출물은 원래도 많았음
10년 동안 기업 고객과 일해보면 pre-LLM 시절이 고품질 지식노동의 황금기였다고는 전혀 못 하겠고, 그때도 지식노동의 작동하는 시뮬라크르 같은 잡동사니가 넘쳤음
- 내게 더 큰 문제는 실수의 인간적 설명 가능성이 사라진다는 데 있음
  사람의 저품질 결과물은 무지, 시간 압박, 이기적 목표처럼 대체로 원인이 있고 그 원인은 꽤 일관적임
  조심스럽지만 모르는 인턴, 지식은 많지만 수면 부족으로 뻔한 걸 놓치는 선임처럼 신뢰 패턴을 잡을 수 있음
  그런데 AI는 한 번에 논문 구현은 완벽하게 하면서도 같은 실행에서 신입생 수준 실수를 하기도 해서, 극단적 유능함을 보이는 기계를 상대로 완전한 무능을 가정한 리뷰를 해야 하는 비직관적 상황이 생김
- pre-LLM 시절이 품질의 황금기는 아니었지만, LLM이 서둘러 만든 헛소리 업무를 가려내던 또 하나의 표식을 없애버린 건 맞음
- 원래 이런 건 긍정 판별이 아니라 부정 필터였음
  오탈자나 기초적인 사실 오류가 있으면 쉽게 탈락시킬 수 있었지만, 그런 게 없다고 품질이 높다는 뜻은 아님
  보통 이런 검사는 첫 관문일 뿐이고 전부가 아니며, 그 관문을 통과하면 진짜 문제를 더 쉽게 볼 수 있음
  코드에서도 reasoning 전에 lint와 스타일을 먼저 정리하는 것과 비슷함
- 눈에 띄는 AI 특유의 문구는 잡아낼 수 있어도, 아무 표식 없는 나머지 99%의 AI 생성 텍스트는 놓칠 수 있음
  그런데 본인은 그 99%가 AI 생성물인 줄 모르니, 자기가 알아챈 100%의 패턴만 보고 AI 글은 다 걸러낸다고 착각하기 쉬움
- 이게 핵심적으로 중요하진 않다고 봄
  원래 많은 지식노동은 다른 무언가의 대리물이었음
  오탈자 없고 형식이 반듯한 품질은 다림질된 흰 셔츠와 넥타이처럼 주로 존중의 신호였고, 실제로 아무도 깊게 읽지 않을 긴 문서도 많았음
  결국 희생과 복종을 상징적으로 보여주는 방식이었는데, LLM이 그 신호 체계를 없애고 있음
  내용의 질을 예전에도 제대로 보지 않았다면, 애초에 그 내용은 그다지 중요하지 않았던 셈임
학계에서는 이미 AI 검토 비용 문제가 드러나고 있는데, 기사에서 말한 이유와는 조금 다름
조악한 작업의 표식이 사라지는 게 핵심이라기보다, AI를 써서 만든 작업물을 꼼꼼히 검토하는 비용이 인간만으로 감당하기 너무 커지고 있음
예를 들어 경제학 저널은 부록이 수백 페이지까지 가는데, 사람이 읽을 수 있는 시간은 한정돼 있음
다른 분야 저널들도 신규 투고 수 증가뿐 아니라 각 논문을 검증하는 데 들어가는 검토 강도까지 같이 압박받는지 궁금함
- 공정하게 말하면 많은 학문 분야는 석사 이상 수준부터는 판별 자체에 높은 전문성이 필요함
  그 아래 수준에서는 무엇이 맞는지와 무엇이 맞아 보이는지 구분이 거의 안 되기도 함
AI를 쓰면서 이해를 cargo-cult하고 있다고 느낌
뭔가를 이해한 표면만 재현하고, 실제로 이해하는 데 필요한 시간과 노력을 스스로 빼앗고 있음
- 같이 일하는 동료를 보며 늘 하는 생각인데, 그 사람은 AI 활용 시나리오를 거의 개인용 Jarvis 환상으로만 그림
  Claude에 Snowflake Cortex, 통합 코드, 문서, Jira 티켓을 다 먹이면 뭐든 물어볼 수 있고 모든 게 훨씬 나아질 거라고 믿음
  그런데 그 집착은 큰 산출을 내지 못했고, 몇 번은 기술의 불완전함을 직접 크게 겪었음
  다들 agentic workflow와 거대한 사내 위키 비전을 말하지만, 정작 나는 AI로 배송 속도는 꽤 올리되 거창한 모험에는 시간을 안 쓰는 편이라 계속 결과물을 내고 있음
  예전에 회사의 챗봇 도입을 비판하던 사람들이, 이제는 수조 개의 .md 파일과 skill 파일을 모아 자기들만의 챗봇 만드는 데 토큰을 태우는 아이러니도 보임
  진짜로 우려되는 건 기관 차원의 실제 지식이 이런 지름길 속에서 손실된다는 점임
  간단한 예시 요청이나 개념 학습 질문은 괜찮지만, 현재 도구와 인프라를 검토해서 배포 속도를 5배 올리고, 웹 조사하고, 조직 도입 제안서와 5년 비용편익 분석까지 한 번에 만들라는 식의 프롬프트는 사람을 스스로 약화시킴
  요즘은 다들 Claude가 만든 제안서를 여기저기 던지고, 직접 조금 파보거나 아키텍트나 시니어 엔지니어와 같이 탐색하는 과정은 건너뜀
  그 결과 많은 것을 얕게만 이해하게 되고, 깊게 캐물으면 설명을 잘 못 하며, AI가 준 답을 확정적 전략처럼 믿어서 도전받으려 하지 않음
  더 경험 많은 사람에게서 배우는 기회도 학습 경험으로 보지 않게 됨
  결국 사람 뇌 자체가 여전히 가장 대단한 기술 중 하나라고 믿고, 이 거대한 인공 도서관을 왜 굳이 자기 밖에 만들려는지 되묻게 됨
- 여기에선 이해의 cargo cult라기보다 관리자 시점의 cargo cult를 하고 있다고 봄
  Bret Devereaux가 Game Of Thrones 비평에서 말하듯 엘리트 시점의 세계관은 엘리트에게만 그럴듯하고 유토피아처럼 들림
  실제 노동과 동떨어진 이런 거품은 결국 크게 터질 것이고, AI로 일자리를 잃은 대중이 빵도 못 먹겠다고 외칠 때 케이크나 먹으라는 식이면 프랑스 혁명급 반작용도 상상하게 됨
- 반대로, AI는 내가 이해하지 못한 채로도 뭔가를 대신 해줄 수는 있음
  하지만 깊이 이해하려고 할 때 도와주는 도구로는 오히려 AI만큼 좋은 것도 드묾
결국 어떤 것을 이해한다는 건 직접 해보는 것과 거의 같음
이해하지 못하는 건 괜찮지만, 그럴 땐 대리 지표가 있든 없든 결국 다른 사람의 이해를 신뢰하는 수밖에 없음
일을 덜 하고 더 많이 신뢰하는 방향은 어느 지점까진 가능해도, 그 이상 가면 미래의 일이 위태로워짐
simulacrum은 정말 좋은 단어임
- Simulacrum 개념은 Baudrillard에서 왔고, 그의 에세이 Simulation and Simulacra는 현대 경제가 왜 이렇게 기묘한지 이해하는 데 꽤 도움 됨
그래서 중간 관리자들이 LLM 최상주의의 첫 신도처럼 보였던 것 같음
중간관리는 역할의 진짜 숙련도 말고도 지식노동을 계속 추상화하도록 밀어붙이는 유인이 많고, 그 추상화된 층위가 embedding space에서 특히 잘 기술되는 듯함
AI 코드는 실제보다 더 나빠 보이는 경우가 많음
지나치게 장황하고, 헷갈리고, fallback이 잔뜩 들어가 있어서 문제가 생기면 수많은 try/catch를 타고 흘러가며 스택 트레이스를 엉뚱한 곳으로 보내버림
그래도 순수 기능만 놓고 보면, 겉모습이 비슷한 인간 작성 코드보다 더 잘 돌아가는 경우가 많았음
- 그래도 그렇게 묘사한 코드는 여전히 나쁜 코드임
  사람에게도 LLM에게도 추론하기 어렵기 때문임
이런 블로그 글 스타일이 더 많아졌으면 좋겠음
길이도 적당하고, 메시지도 잘 전달하고, 이야기성도 있음
요즘은 소설 길이만 한 LLM산 AI 슬롭이 너무 많아서 더 반갑게 느껴짐
업계에 있는 많은 사람에게는 이게 꽤 자명한 흐름으로 보임
문제는 걸린 돈이 너무 커서, 큰 플레이어들이 원하는 걸 계속 밀어붙인다는 데 있음
원자 이하 입자들이 사실은 하나의 우주들이고, 그 성질이 그 우주를 지배했던 존재들과 그들이 사라진 뒤에도 돌아가는 자동화의 흔적을 반영하는 거라고 상상해보게 됨
엔트로피를 수확하며 스스로를 계속 증식시키는 자동 기계 같은 것 말임
우리는 지금 우리보다 더 큰 힘을 만들고 있고, 어느 순간 되돌릴 수 없는 지점에 닿을 수도 있음
- 완전히 이해한 건 아니지만, 그 상상이 흥미로움
  수많은 아원자 우주와 문명이 흥망하고, 자율적인 유사 지능 기술에 먹히기도 하며, 거시적으로는 그게 입자의 거동으로 드러난다고 떠올리게 됨
  지금 우리도 결국 하나의 입자를 만들고 있고, 우리의 집단적 선택이 우리가 속한 상위 우주에 아주 작지만 의미 있는 영향을 줄지도 모름
누군가의 출력은 항상 다른 누군가의 입력이 됨
LLM으로 양을 늘리면, 다음 사람은 또 LLM으로 그걸 파싱해 자기 출력을 만듦
그렇게 이어지다가 최종 소비자가 불만을 제기하면, 도대체 어디서 잘못됐는지 아무도 특정하지 못하게 됨
- 물론 그때는 마지막 소비자가 잘못 사용한 것이라고 하겠지
  마지막 소비자만 눈앞에 있고, 나머지는 7단계 프록시 뒤에 숨어 있으니까

답변달기

지식 노동의 시뮬라크럼(허상)

대리 지표(Proxy Measure)의 역할과 한계

LLM이 대리 지표를 무력화한 메커니즘

LLM 자체에 내재된 동일한 문제

현재 상황에 대한 경고

함께 보면 좋은 글 β

Hacker News 의견들