1P by GN⁺ 7시간전 | ★ favorite | 댓글 1개
  • LLM이 표면적 품질을 완벽히 모방하면서, 지식 노동의 실제 품질을 판단하던 대리 지표(proxy measure)가 무력화되고 있음
  • 지식 노동은 본질적 품질 평가가 어려워 문서의 형식적 완성도 같은 대리 지표에 의존해 왔으나, LLM이 이 대리 지표를 쉽게 통과시킴
  • AI가 작성한 코드와 보고서는 겉보기에 전문적이지만, 실질적 정확성이나 유용성은 검증되지 않은 채 통과되는 구조
  • LLM 자체도 "정답인가"가 아니라 "그럴듯해 보이는가"로 훈련되어, 동일한 대리 지표 문제를 내재하고 있음
  • 수십억 달러를 투자해 만든 시스템이 실제 업무가 아닌 업무의 허상을 수행하는 도구로 쓰이고 있다는 경고

대리 지표(Proxy Measure)의 역할과 한계

  • 시장 분석 보고서를 받았을 때, 날짜 오류·오탈자·그래프 중복 같은 표면적 결함만으로도 보고서 전체를 폐기하는 경우가 흔함
  • 실제로 관심 있는 것은 보고서가 현실을 반영하고 좋은 의사결정으로 이끄는지 여부이지만, 이를 직접 검증하는 비용이 높음
  • 표면적 품질은 검증 비용이 낮고, 실제 품질과 충분히 상관관계가 있어서 대리 지표로 기능해 왔음
  • 모든 지식 노동에 이 문제가 존재하며, 타인의 작업 품질을 객관적으로 판단하려면 많은 노력이 필요하므로 대리 지표에 크게 의존하는 구조

LLM이 대리 지표를 무력화한 메커니즘

  • 대리 지표는 인센티브 불일치(misaligned incentives)를 억제하는 역할을 해왔으나, LLM이 이를 깨뜨림
  • LLM은 실제 작업의 품질을 재현하지 않으면서도 글쓰기 스타일을 시뮬레이션하는 데 탁월함
  • ChatGPT에 시장 분석 보고서를 요청하면, 결과물이 최상위 컨설팅펌의 전문가가 작성한 것처럼 보임
  • 소프트웨어 엔지니어가 AI로 수천 줄의 코드를 작성하면, 몇 초간 훑어보는 수준에서는 고품질 코드처럼 보임
    • 동료들도 AI에 코드 리뷰를 맡기고, 발견된 문제를 기계적으로 처리하면서 작업의 의례(ritual)만 유지되고 실질적 품질은 담보되지 않음

LLM 자체에 내재된 동일한 문제

  • LLM 훈련 과정 자체도 "답이 참인가" 또는 "답이 유용한가"를 평가하지 않음
  • 훈련 기준은 "훈련 데이터에 나올 법한 답인가" 또는 "RLHF 판정자가 만족하는 답인가"에 해당
  • 결과적으로 LLM은 고품질 산출물처럼 보이는 출력을 생산하도록 최적화되어 있으며, 그 최적화 능력이 매우 뛰어남

현재 상황에 대한 경고

  • 수십억 달러를 투입해 만든 시스템이 업무의 시뮬라크럼(허상)을 수행하는 데 사용되고 있음
  • 기업들은 토큰 소비량 리더보드에서 1위를 차지하려고 경쟁 중
  • 작업자들이 LLM 산출물을 더 많이 생산할수록, 그 산출물을 깊이 살펴보는 시간은 줄어듦
  • 남은 것은 훑어보고 "LGTM"을 붙인 뒤 17번째 Claude Code 세션을 여는 것뿐
Hacker News 의견들
  • 글에서 말하는 것처럼 오탈자나 사소한 오류 같은 대리 지표로 인간의 지식노동 품질을 가늠하기 쉬웠다는 주장도, 그런 단서가 AI에는 없어서 문제라는 주장도 둘 다 완전히 동의되진 않음
    개념적으로는 형편없지만 사실관계는 맞고 형식도 멀쩡한 인간 산출물은 원래도 많았음
    10년 동안 기업 고객과 일해보면 pre-LLM 시절이 고품질 지식노동의 황금기였다고는 전혀 못 하겠고, 그때도 지식노동의 작동하는 시뮬라크르 같은 잡동사니가 넘쳤음

    • 내게 더 큰 문제는 실수의 인간적 설명 가능성이 사라진다는 데 있음
      사람의 저품질 결과물은 무지, 시간 압박, 이기적 목표처럼 대체로 원인이 있고 그 원인은 꽤 일관적임
      조심스럽지만 모르는 인턴, 지식은 많지만 수면 부족으로 뻔한 걸 놓치는 선임처럼 신뢰 패턴을 잡을 수 있음
      그런데 AI는 한 번에 논문 구현은 완벽하게 하면서도 같은 실행에서 신입생 수준 실수를 하기도 해서, 극단적 유능함을 보이는 기계를 상대로 완전한 무능을 가정한 리뷰를 해야 하는 비직관적 상황이 생김
    • pre-LLM 시절이 품질의 황금기는 아니었지만, LLM이 서둘러 만든 헛소리 업무를 가려내던 또 하나의 표식을 없애버린 건 맞음
    • 원래 이런 건 긍정 판별이 아니라 부정 필터였음
      오탈자나 기초적인 사실 오류가 있으면 쉽게 탈락시킬 수 있었지만, 그런 게 없다고 품질이 높다는 뜻은 아님
      보통 이런 검사는 첫 관문일 뿐이고 전부가 아니며, 그 관문을 통과하면 진짜 문제를 더 쉽게 볼 수 있음
      코드에서도 reasoning 전에 lint와 스타일을 먼저 정리하는 것과 비슷함
    • 눈에 띄는 AI 특유의 문구는 잡아낼 수 있어도, 아무 표식 없는 나머지 99%의 AI 생성 텍스트는 놓칠 수 있음
      그런데 본인은 그 99%가 AI 생성물인 줄 모르니, 자기가 알아챈 100%의 패턴만 보고 AI 글은 다 걸러낸다고 착각하기 쉬움
    • 이게 핵심적으로 중요하진 않다고 봄
      원래 많은 지식노동은 다른 무언가의 대리물이었음
      오탈자 없고 형식이 반듯한 품질은 다림질된 흰 셔츠와 넥타이처럼 주로 존중의 신호였고, 실제로 아무도 깊게 읽지 않을 긴 문서도 많았음
      결국 희생과 복종을 상징적으로 보여주는 방식이었는데, LLM이 그 신호 체계를 없애고 있음
      내용의 질을 예전에도 제대로 보지 않았다면, 애초에 그 내용은 그다지 중요하지 않았던 셈임
  • 학계에서는 이미 AI 검토 비용 문제가 드러나고 있는데, 기사에서 말한 이유와는 조금 다름
    조악한 작업의 표식이 사라지는 게 핵심이라기보다, AI를 써서 만든 작업물을 꼼꼼히 검토하는 비용이 인간만으로 감당하기 너무 커지고 있음
    예를 들어 경제학 저널은 부록이 수백 페이지까지 가는데, 사람이 읽을 수 있는 시간은 한정돼 있음
    다른 분야 저널들도 신규 투고 수 증가뿐 아니라 각 논문을 검증하는 데 들어가는 검토 강도까지 같이 압박받는지 궁금함

    • 공정하게 말하면 많은 학문 분야는 석사 이상 수준부터는 판별 자체에 높은 전문성이 필요함
      그 아래 수준에서는 무엇이 맞는지와 무엇이 맞아 보이는지 구분이 거의 안 되기도 함
  • AI를 쓰면서 이해를 cargo-cult하고 있다고 느낌
    뭔가를 이해한 표면만 재현하고, 실제로 이해하는 데 필요한 시간과 노력을 스스로 빼앗고 있음

    • 같이 일하는 동료를 보며 늘 하는 생각인데, 그 사람은 AI 활용 시나리오를 거의 개인용 Jarvis 환상으로만 그림
      Claude에 Snowflake Cortex, 통합 코드, 문서, Jira 티켓을 다 먹이면 뭐든 물어볼 수 있고 모든 게 훨씬 나아질 거라고 믿음
      그런데 그 집착은 큰 산출을 내지 못했고, 몇 번은 기술의 불완전함을 직접 크게 겪었음
      다들 agentic workflow와 거대한 사내 위키 비전을 말하지만, 정작 나는 AI로 배송 속도는 꽤 올리되 거창한 모험에는 시간을 안 쓰는 편이라 계속 결과물을 내고 있음
      예전에 회사의 챗봇 도입을 비판하던 사람들이, 이제는 수조 개의 .md 파일과 skill 파일을 모아 자기들만의 챗봇 만드는 데 토큰을 태우는 아이러니도 보임
      진짜로 우려되는 건 기관 차원의 실제 지식이 이런 지름길 속에서 손실된다는 점임
      간단한 예시 요청이나 개념 학습 질문은 괜찮지만, 현재 도구와 인프라를 검토해서 배포 속도를 5배 올리고, 웹 조사하고, 조직 도입 제안서와 5년 비용편익 분석까지 한 번에 만들라는 식의 프롬프트는 사람을 스스로 약화시킴
      요즘은 다들 Claude가 만든 제안서를 여기저기 던지고, 직접 조금 파보거나 아키텍트나 시니어 엔지니어와 같이 탐색하는 과정은 건너뜀
      그 결과 많은 것을 얕게만 이해하게 되고, 깊게 캐물으면 설명을 잘 못 하며, AI가 준 답을 확정적 전략처럼 믿어서 도전받으려 하지 않음
      더 경험 많은 사람에게서 배우는 기회도 학습 경험으로 보지 않게 됨
      결국 사람 뇌 자체가 여전히 가장 대단한 기술 중 하나라고 믿고, 이 거대한 인공 도서관을 왜 굳이 자기 밖에 만들려는지 되묻게 됨
    • 여기에선 이해의 cargo cult라기보다 관리자 시점의 cargo cult를 하고 있다고 봄
      Bret Devereaux가 Game Of Thrones 비평에서 말하듯 엘리트 시점의 세계관은 엘리트에게만 그럴듯하고 유토피아처럼 들림
      실제 노동과 동떨어진 이런 거품은 결국 크게 터질 것이고, AI로 일자리를 잃은 대중이 빵도 못 먹겠다고 외칠 때 케이크나 먹으라는 식이면 프랑스 혁명급 반작용도 상상하게 됨
    • 반대로, AI는 내가 이해하지 못한 채로도 뭔가를 대신 해줄 수는 있음
      하지만 깊이 이해하려고 할 때 도와주는 도구로는 오히려 AI만큼 좋은 것도 드묾
  • 결국 어떤 것을 이해한다는 건 직접 해보는 것과 거의 같음
    이해하지 못하는 건 괜찮지만, 그럴 땐 대리 지표가 있든 없든 결국 다른 사람의 이해를 신뢰하는 수밖에 없음
    일을 덜 하고 더 많이 신뢰하는 방향은 어느 지점까진 가능해도, 그 이상 가면 미래의 일이 위태로워짐
    simulacrum은 정말 좋은 단어임

    • Simulacrum 개념은 Baudrillard에서 왔고, 그의 에세이 Simulation and Simulacra는 현대 경제가 왜 이렇게 기묘한지 이해하는 데 꽤 도움 됨
  • 그래서 중간 관리자들이 LLM 최상주의의 첫 신도처럼 보였던 것 같음
    중간관리는 역할의 진짜 숙련도 말고도 지식노동을 계속 추상화하도록 밀어붙이는 유인이 많고, 그 추상화된 층위가 embedding space에서 특히 잘 기술되는 듯함

  • AI 코드는 실제보다 더 나빠 보이는 경우가 많음
    지나치게 장황하고, 헷갈리고, fallback이 잔뜩 들어가 있어서 문제가 생기면 수많은 try/catch를 타고 흘러가며 스택 트레이스를 엉뚱한 곳으로 보내버림
    그래도 순수 기능만 놓고 보면, 겉모습이 비슷한 인간 작성 코드보다 더 잘 돌아가는 경우가 많았음

    • 그래도 그렇게 묘사한 코드는 여전히 나쁜 코드
      사람에게도 LLM에게도 추론하기 어렵기 때문임
  • 이런 블로그 글 스타일이 더 많아졌으면 좋겠음
    길이도 적당하고, 메시지도 잘 전달하고, 이야기성도 있음
    요즘은 소설 길이만 한 LLM산 AI 슬롭이 너무 많아서 더 반갑게 느껴짐

  • 업계에 있는 많은 사람에게는 이게 꽤 자명한 흐름으로 보임
    문제는 걸린 돈이 너무 커서, 큰 플레이어들이 원하는 걸 계속 밀어붙인다는 데 있음

  • 원자 이하 입자들이 사실은 하나의 우주들이고, 그 성질이 그 우주를 지배했던 존재들과 그들이 사라진 뒤에도 돌아가는 자동화의 흔적을 반영하는 거라고 상상해보게 됨
    엔트로피를 수확하며 스스로를 계속 증식시키는 자동 기계 같은 것 말임
    우리는 지금 우리보다 더 큰 힘을 만들고 있고, 어느 순간 되돌릴 수 없는 지점에 닿을 수도 있음

    • 완전히 이해한 건 아니지만, 그 상상이 흥미로움
      수많은 아원자 우주와 문명이 흥망하고, 자율적인 유사 지능 기술에 먹히기도 하며, 거시적으로는 그게 입자의 거동으로 드러난다고 떠올리게 됨
      지금 우리도 결국 하나의 입자를 만들고 있고, 우리의 집단적 선택이 우리가 속한 상위 우주에 아주 작지만 의미 있는 영향을 줄지도 모름
  • 누군가의 출력은 항상 다른 누군가의 입력이 됨
    LLM으로 양을 늘리면, 다음 사람은 또 LLM으로 그걸 파싱해 자기 출력을 만듦
    그렇게 이어지다가 최종 소비자가 불만을 제기하면, 도대체 어디서 잘못됐는지 아무도 특정하지 못하게 됨

    • 물론 그때는 마지막 소비자가 잘못 사용한 것이라고 하겠지
      마지막 소비자만 눈앞에 있고, 나머지는 7단계 프록시 뒤에 숨어 있으니까