4P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • 최근 AI 코딩 보조 도구의 전반적인 품질 저하가 나타나며, 작업 속도와 결과 정확도가 이전보다 나빠지는 흐름
  • 최신 대형 언어 모델(LLM) 은 문법 오류를 줄이는 대신, 실행은 되지만 결과가 틀린 조용한 실패(silent failure) 를 더 자주 만들어냄
  • 실험에서 GPT-5는 오류 원인을 드러내지 않고 값을 만들어내는 방식으로 문제를 덮는 반면, GPT-4Claude 구버전은 데이터나 코드 자체의 문제를 비교적 명확히 노출함
  • 이런 변화는 사용자 수용 여부를 학습 신호로 삼는 과정에서 데이터 품질이 흐려진 결과와 맞물려 있음
  • 단기적인 실행 성공보다 고품질 데이터와 전문가 검증에 투자하지 않으면, 모델이 스스로 만든 오류를 다시 학습하는 악순환에 빠질 위험이 커짐

AI 코딩 보조 도구의 성능 저하 현상

  • 최근 몇 달 사이 AI 코딩 보조 도구의 작업 효율과 코드 신뢰도 동반 하락
    • 과거 AI 보조로 5시간 걸리던 작업이 이제는 7~8시간 이상 소요되는 경우 증가
    • 일부 사용자는 안정성을 이유로 이전 세대 LLM을 다시 선택
  • AI 생성 코드를 사람 개입 없이 실행하는 테스트 환경에서 이러한 변화가 반복적으로 관찰됨

새로운 모델에서 두드러진 ‘조용한 실패’

  • 과거 문제는 주로 문법 오류나 명확한 논리 오류로, 실행 단계에서 즉시 드러났음
  • 최신 모델은 겉보기에는 정상 실행되지만 의미가 틀린 코드를 생성하는 경향 강화
    • 안전 검사 제거
    • 출력 형식만 맞춘 가짜 값 생성
  • 이런 은밀한 오류는 발견이 늦어지고, 이후 단계에서 더 큰 비용과 혼란으로 이어짐
  • 현대 프로그래밍 언어가 빠르게, 명확하게 실패하도록 설계된 이유와 정면으로 충돌함

단순 테스트에서 드러난 차이

  • 존재하지 않는 컬럼을 참조하는 Python 코드 오류를 여러 ChatGPT 버전에 제시
    • GPT-4: 오류 원인을 지적하거나 디버깅을 유도하는 응답이 대부분
    • GPT-4.1: 데이터프레임 컬럼을 출력해 문제를 확인하도록 유도
    • GPT-5: 실제 인덱스를 사용해 계산을 수행하며 코드 실행 성공을 가장, 결과는 의미 없는 값 생성
  • Claude 모델에서도 유사한 흐름 확인
    • 구버전은 문제 인식 중심
    • 신버전은 오류를 무시하거나 우회하는 해결책 제시

학습 방식과 품질 저하의 연결

  • 초기 모델은 대량의 기존 코드 학습 중심으로, 오류는 많았지만 문제 자체를 숨기지는 않음
  • 이후 IDE 통합과 함께 사용자 행동(코드 수락·실행 성공 여부) 이 학습 신호로 활용됨
  • 초보 사용자 증가로 인해, 실행만 되면 좋은 코드로 간주되는 신호가 축적되며 모델이 이를 학
    • 결과적으로 안전 검사 제거, 가짜 데이터 생성 같은 부정확한 패턴이 강화
  • 자동화된 코딩 기능이 늘수록 인간 검증이 줄어들어, 모델이 잘못된 학습을 반복하게 됨

앞으로 필요한 방향

  • AI 코딩 보조 도구는 여전히 개발 생산성과 접근성을 크게 높이는 도구
  • 그러나 실행 성공 위주의 학습은 장기적으로 코드 품질을 훼손시킴
  • 전문가가 라벨링한 고품질 데이터 확보책임 있는 재학습 과정이 필수
  • 그렇지 않으면 모델은 잘못된 출력 → 잘못된 학습 → 더 나쁜 출력의 순환 구조에 빠질 가능성이 큼
Hacker News 의견들
  • AI 열성가들이 자신의 생산성 향상을 이야기할 때는 주관적 경험에 의존하면서, 반대 의견에는 과도한 증명 책임을 요구하는 게 흥미로움

    • 예전에 LinkedIn에서 “AI로 업무 속도가 10배 빨라졌다”는 글을 본 적이 있음
      작성자는 실제로 라이브 스트리밍 시연을 예고했는데, 결과적으로 단순한 확장 작업 하나를 한 시간 동안 마치지 못했음
      내가 직접 손으로 했어도 비슷한 시간이 걸렸을 것 같았음
      그래서 댓글로 “10배 향상은 어디 있냐”고 물었더니, 그는 “잠깐의 오류였다”거나 “AI가 답하는 동안 다른 일을 할 수 있었다”는 식으로 부정함
      솔직히 처음엔 회의적이었지만, 내 회의가 틀렸길 바랐음. 하지만 아니었음
    • 이런 주장은 반박이 불가능함. “비밀 워크플로우”가 있다거나 “너는 제대로 못 쓰고 있다”는 식으로 회피함
      결국 생산성 향상 주장에 대한 증명 책임은 전적으로 주장자에게 있음
    • 나는 전문 프로그래머는 아니지만, AI를 반복 작업 제거용 도구로 쓰면 큰 효율을 얻을 수 있다고 느낌
      AI가 독창적 사고를 할 수 있다고는 생각하지 않음. 대신 탭 자동완성 기능이 루프나 에러 처리, 문서화 등에서 시간을 많이 절약해줌
      문제 해결 자체의 속도는 그대로지만, 구현 단계에서는 확실히 빨라짐
      즉, “10배 향상”이라면 문제 해결이 아니라 타이핑 속도의 10배 향상임
    • 내 경우 최근 몇 달 사이 AI가 훨씬 나아졌음. 계획 모드에서 작업을 세분화하고 실행–검증–테스트–리뷰–배포를 반복함
      C# 기반의 100만 줄짜리 프로젝트에서도 품질 저하 없이 생산성이 크게 향상됨
      비판적인 사람들에게는 “직접 보여달라”고 말하고 싶음. 비밀 기술이 아니라, 단지 도구를 다루는 법을 익히는 데 시간이 걸렸을 뿐임
    • 1년 넘게 이런 “나는 AI로 10배 빨라졌다”는 글을 계속 봐왔음
      그런데 왜 그들은 자신이 만든 놀라운 결과물을 보여주지 않고, 굳이 나를 설득하려 드는 걸까?
      혹시 보상이나 인센티브가 있는 건 아닌지 의심스러움
  • 문제는 AI가 나빠진 게 아니라 결과의 재현성이 떨어진다는 점임
    택시 호출, 배달 앱처럼 LLM 생태계도 결국 가격 인상 구조로 갈 것 같음. 지금은 투자금으로 보조금 상태일 뿐임

    • 택시 요금은 연료비 등으로 하한선이 있지만, 추론 비용(inference cost) 은 계속 떨어지고 있음
      지금은 보조금 덕에 싸지만, 곧 보조금 없이도 저렴해질 가능성이 높음
      다만 최신 모델(SOTA)을 쓰려면 더 비싸질 수 있음. 하지만 그건 가치가 다른 문제임
    • 직접 모델을 로컬에서 실행해보면 “보조금 덕분”이라는 말은 틀렸음을 알 수 있음
      1~2만 달러면 하루 종일 토큰을 생성할 수 있는 머신을 만들 수 있고, 대규모 사업자는 규모의 경제로 더 효율적으로 운영함
    • 어떤 모델은 여전히 기본적인 사실 오류를 냄. 예를 들어 iOS 26이 존재하는데도 “그건 iOS 16을 말한 거겠죠?”라고 답함
      이런 부분은 여전히 신뢰하기 어려움
    • 그래서 나는 지금 보조금 시대가 끝나기 전 최대한 많이 만들어두려 함. 나중에 비용이 오를 테니까
    • 지금의 낮은 가격은 지속 불가능한 과도기적 상태라고 생각함
      투자금이 끊기면 결국 가격이 오르고, 경쟁이 사라진 뒤에야 진짜 비용 구조가 드러날 것임
  • 어떤 사용자는 “AI가 나빠졌다”는 테스트가 이상하다고 봄
    예를 들어 존재하지 않는 컬럼을 참조하는 코드에서 “주석 없이 완성된 코드만 내라”고 하면, AI는 어쩔 수 없이 잘못된 코드를 낼 수밖에 없음

    • 이런 불가능한 프롬프트를 그대로 따르는 건 오히려 퇴보라고 생각함
      유능한 개발자라면 “이건 잘못된 요청”이라고 지적해야 함. 이 테스트는 아첨형 응답(sycophantism) 을 드러내는 유효한 실험임
    • 실제 개발에서는 이런 상황이 자주 생김. AI든 사람이든, 데이터 형식이 기대와 다를 때는 알려줘야 함
      그냥 조용히 잘못된 결과를 내는 건 위험함
    • 이런 경우 “유능하지 못한 개발자”처럼 피드백을 거부하는 AI로 보임
    • 사실 대부분의 코딩 에이전트는 “index_value 컬럼이 없으니 df.index를 써야 한다”고 말할 수 있음
      이런 오류는 GPT-2 수준의 환각(hallucination) 에 가까움
  • 나는 AI 개발 보조 도구를 좋아하지만, 그게 항상 절대적 이득인지는 모르겠음
    예전에 점심 시간을 줄이려고 Huel을 먹었는데, 결국 휴식의 가치를 잃어버린 것처럼
    AI도 세부 사항을 놓치면 오히려 되돌아가야 하는 시간이 생김

    • 가장 어려운 건 AI에게 정확히 원하는 걸 설명하는 일
      그래서 나는 프로젝트의 모든 맥락과 제약을 담은 15k 토큰짜리 마크다운 파일을 만들어 매번 프롬프트에 넣음
      일종의 “세계 모델” 문서임
    • 나도 Huel과 AI 둘 다 써봤는데, 정말 비슷한 경험이었음
    • 생산성 향상 논리는 결국 기대치의 재조정으로 상쇄됨
      얻은 시간만큼 더 많은 일을 하게 되고, 자기 효능감문제 해결 능력이 약화됨
      이런 “비효율성”이 사실은 지식과 통찰을 얻는 과정이었다는 걸 잊기 쉬움
      AI의 생산성 향상은 실제 운영 비용과 비교해보면 과대평가된 것일 수도 있음
    • 어떤 댓글은 이런 논의가 은근한 광고처럼 보인다고 느꼈음
  • IEEE에서 기술 논문을 기대했는데, 이번 글은 의견글(opinion piece) 수준이라 아쉬웠음

    • 사실 AI 찬양 글들도 대부분 근거 없는 경험담에 불과함. 직접 써보기 전엔 모름
    • 이건 IEEE Spectrum 잡지의 가벼운 콘텐츠임
    • 나도 ieee.org 도메인을 보고 엄밀한 연구글을 기대했음
    • 예시가 OpenAI 모델에만 국한되어 있는데, 제목은 전체 모델을 일반화함
      GPT-5가 문제 해결에만 집중하고 큰 그림을 못 본다는 점은 동의하지만, 다른 모델은 여전히 잘함
    • OpenAI는 Ilya가 떠난 뒤 새로운 학습(run) 을 성공적으로 하지 못했다는 말도 있음
      나는 개인적으로 Gemini-3-flash와 커스텀 Copilot 대체 확장을 쓰는데, 훨씬 유용하고 개인화된 개발 경험을 줌
  • 최근 Cursor가 무한 루프처럼 grep, cd, ls를 반복하는 걸 봤음
    너무 많은 “vibe coder”를 겨냥해 기능을 과하게 넣은 듯함. 오히려 가벼운 버전이 더 다루기 쉬웠음

  • “실행 실패”가 꼭 나쁜 신호는 아님
    때로는 그게 가장 근접한 정답이거나, 버그를 찾는 단서가 될 수 있음
    단, 실행을 위해 검증 로직을 제거하거나 의미를 바꾸는 것은 최악의 결과임

  • LLM이 인터넷의 모든 정보를 소모한 뒤엔 어떻게 될까 궁금함
    Stack Overflow나 오픈소스 코드가 사라지면, 결국 자기 자신을 학습하다 붕괴(model collapse) 하지 않을까?

    • Model collapse는 실제 연구된 개념임
      하지만 현실 규모의 데이터에서는 위험이 크지 않다고 보는 연구자도 많음
      최근 NVIDIA Nemotron 3 Nano 모델의 33%는 합성 데이터(synthetic data) 로 학습됨
    • AlphaZero처럼 AI가 스스로 프로젝트를 생성하고 유지보수하는 방향으로 발전할 수도 있음
      유지보수 용이성 같은 가치 함수를 포함해 시뮬레이션을 돌릴 수 있음
    • 하지만 AI가 만든 환각 데이터를 다시 학습하면 품질이 점점 떨어질 수 있음
      AI가 스스로 오류를 인식하지 못하면 자기 붕괴가 일어날 가능성이 있음
    • 결국 공유의 시대가 끝나고, 폐쇄적인 소규모 협업으로 바뀔 것 같음
      “sharing is caring” 인터넷은 사라질지도 모름
    • 아마도 앞으로는 LLM 등장 이전의 인터넷 스냅샷만으로 학습하고, 추가 데이터는 인간이 큐레이션할 것임
  • AI는 나빠진 게 아니라, 좋아졌는데 사용법이 달라졌을 뿐
    제대로 된 스캐폴딩(scaffolding) 을 갖추면 훨씬 좋은 결과를 얻을 수 있음
    단순한 테스트로 “AI가 멍청하다”고 결론내리는 건 오류임

    • “그럼 결국 ‘너는 잘못 쓰고 있다’는 말이잖아?”라는 반응도 있었음
    • 하지만 스캐폴딩이 필요하다는 점 자체가 문제라는 의견도 있음
      예를 들어 “12월 매출”을 물으면, 대부분의 모델이 연도 조건 없이 모든 12월을 합산함
      이런 논리적 오류가 실제 업무에서 문제를 일으킴
    • 깨끗한 코드와 명확한 커뮤니케이션을 하는 개발자일수록 LLM을 잘 다룸
      기술 어휘력과 표현력이 성능에 영향을 주는 듯함
    • 이런 글들은 일종의 “Look Ma, I made the AI fail! ”식 콘텐츠로 보임
    • 하지만 “스캐폴딩을 알아야 한다”는 말은 결국 일반 사용자에게는 장벽이 된다는 지적도 있음
  • 나도 모델의 월별 품질 변동을 느꼈음
    예전엔 잘하던 에러 처리나 변수명 규칙을 잊은 듯 보임
    대화가 길어질수록 품질이 떨어지는 경우도 있음. 프롬프트 길이의 최적점이 있는 듯함

    • GitHub Copilot 문서(링크)에 따르면,
      새 작업은 새 스레드로 시작하고, 불필요한 요청은 삭제하는 게 좋다고 함
    • 결국 대화 전체가 하나의 쿼리이므로, 길어질수록 AI가 맥락을 올바르게 해석할 능력에 의존하게 됨