2025년 말에 돌아본 AI에 대한 고찰
(antirez.com)- LLM이 단순한 확률적 앵무새에 불과하다는 주장은 2025년 들어 거의 사라졌으며, 프롬프트의 의미와 응답 방향에 대한 내부 표상이 존재함을 대부분 인정하게 됨
- Chain of Thought(CoT) 는 모델 표상 내 샘플링과 강화학습을 통한 토큰 순차 학습의 결합으로, LLM 출력 품질을 향상시키는 핵심 기법이 됨
- 검증 가능한 보상을 활용한 강화학습이 토큰 수 제한을 넘어선 확장 가능성을 열었으며, 이 분야가 AI의 다음 핵심 발전 방향이 될것으로 예상
- LLM 기반 프로그래밍 지원에 대한 저항이 크게 줄어들었고, 웹 인터페이스 협업 방식과 독립 코딩 에이전트 방식으로 활용 형태가 나뉨
- Transformer 대안 연구와 AGI 가능성이 병행되며, 다양한 아키텍처가 독립적으로 일반지능에 도달할 수 있다는 관점이 부상함
- 오랫동안 LLM을 의미를 이해하지 못하는 2가지 특징을 가진 확률적 기계(stochastic parrots) 라던 주장이 있었음
- 1. 프롬프트의 의미에 대한 정보를 전혀 가지고 있지 않음
- 2. 자신이 무엇을 말할지에 대한 정보도 전혀 가지고 있지 않음
- 기능적 성과와 과학적 단서가 지속적으로 누적되며 이러한 관점이 점차 설득력을 잃고, 2025년에 이르러 해당 주장은 거의 사라진 상태로 전환됨
- Chain of Thought(CoT)는 현재 LLM 성능을 개선하는 핵심 기법으로 자리 잡음
- CoT의 효과는 관련 정보와 개념을 컨텍스트에 올려 모델 내부 표현 공간에서의 샘플링, 즉 내부 탐색을 가능하게 함
- 강화학습과 결합될 경우, 토큰을 하나씩 배치하며 모델 상태를 변화시켜 유용한 답변으로 수렴하는 과정을 학습하게 됨
- 스케일링의 한계가 토큰 수에 의해 결정된다는 기존 관점은 더 이상 유효하지 않음
- 검증 가능한 보상 기반 강화학습(RLVR) 도입으로 스케일링의 범위가 확장됨
- 프로그램 속도 개선처럼 명확한 보상 신호가 존재하는 작업에서는 이론적으로 장기간 지속적인 개선 가능성이 있음
- LLM에 적용되는 강화학습의 개선이 차세대 AI의 핵심 기술이 될 것
- AI 보조 프로그래밍에 대한 개발자들의 저항은 눈에 띄게 감소함
- LLM이 오류를 내더라도 유용한 코드와 힌트를 제공하는 능력이 크게 향상됨
- 투자 대비 효용이 명확해지며 회의적이었던 개발자들까지 활용을 시작함
- LLM을 웹 인터페이스 기반의 동료처럼 사용하는 방식과 독립적인 코딩 에이전트로 사용하는 방식이 공존함
- Transformer 이후에도 또 다른 돌파구가 가능하다는 인식이 일부 저명한 AI 과학자들 사이에서 확산됨
- 트랜스포머 대안, 명시적 기호 표현(symbolic representation), 세계 모델(world model)을 탐구하는 팀과 회사들이 등장
- LLM이 이산적 추론 단계를 근사할 수 있는 공간에서 훈련된 미분 가능한 기계라고 생각함
- 근본적으로 새로운 패러다임 없이도 LLM을 통해 AGI에 도달할 가능성이 있다고 생각
- 다양한 아키텍처를 통해 독립적으로 인공 일반 지능(AGI)에 도달할 수 있을 가능성이 있음
- Chain of Thought가 LLM의 본질을 바꿨다는 주장도 제기됨
- 과거 LLM을 제한적이라 평가하던 이들이 CoT 이후 입장을 바꾸는 현상이 보임
- 그들은 CoT 때문에 LLM이 완전히 달라졌다고 말하지만, 이는 거짓임
- 여전히 동일한 아키텍처와 다음 토큰 목표를 가지고 있으며, CoT는 토큰이 하나씩 생성되는 방식 그대로임
- 과거 LLM의 한계를 검증하기 위한 ARC 테스트가 이제는 LLM 성능을 입증하는 지표로 전환됨
- ARC 테스트는 초기와 달리 더 이상 극복 불가능한 과제로 보이지 않음
- 특정 작업에 최적화된 소형 모델들이 ARC-AGI-1에서 의미 있는 성과를 냄
- 많은 사람들이 결과를 내지 못할거라 생각했던 아키텍처로 대형 LLM과 광범위한 CoT를 활용하여 ARC-AGI-2에서 인상적인 결과를 달성함
- 향후 20년간 AI가 직면한 가장 근본적인 도전 과제는 인류 멸종을 피하는 문제가 될 것
Hacker News 의견들
-
LLM이 소프트웨어 엔지니어에게 매우 유용해졌음에도, 사회 전반이 그 출력을 얼마나 신뢰하는지가 두려움임
개발자는 코드를 실행해 유용성을 바로 검증할 수 있지만, 일반인은 의료나 인생 상담처럼 검증이 어려운 영역에서 환각(hallucination) 을 사실로 믿는 경우가 많음
가짜 인용문이나 허위 뉴스가 실제 의사결정에 영향을 주는 걸 보며 책임(accountability) 문제를 모두가 외면하고 있다고 느낌- 문제의 핵심은 전문가 부족임
현실적으로 사람들은 하루에 열 번씩 의사에게 질문할 수 없고, LLM은 80~90% 수준의 답을 즉시 제공함
구글 검색보다 낫고, 무엇보다 LLM은 사기나 자기 이익 추구를 하지 않음
완벽하지 않지만 충분히 쓸 만한 대안임 - 내가 잘 아는 컴퓨터 네트워킹 분야에서도 LLM이 그럴듯하지만 틀린 답을 자주 함
그러나 대부분의 사람은 진짜 전문가와 대화할 기회가 거의 없고, 블로그나 포럼보다 LLM이 오히려 한 단계 나은 경우가 많음
의료 조언도 마찬가지로, 전문가 접근성이 낮은 현실을 감안하면 LLM 사용이 나쁜 일만은 아님 - 요즘 세상에서는 이윤 동기가 있는 정보원을 신뢰하기 어렵다고 느낌
LLM은 지금은 비교적 신뢰 가능한 정보를 주려 하지만, 세상이 점점 더 혼란스러워지고 실제 상황을 파악하기가 어려워지는 게 무서움 - 스웨덴 정치인 Ebba Busch가 LLM으로 연설문을 작성하다가 가짜 인용문을 포함시킨 사례가 있었음
기사 링크
사과로 끝났지만, 이미 얼마나 많은 잘못된 정보가 실제 결정에 영향을 주고 있을지 의문임 - 코드도 겉보기엔 맞지만 미묘하게 틀릴 수 있음
기존 검색엔진은 “PR을 병합하라”고 압박하지 않는다는 점에서 LLM과 다름
- 문제의 핵심은 전문가 부족임
-
3만 시간 이상 코딩한 입장에서 LLM이 나쁜 코드를 자주 만들지만 여전히 매우 유용하다고 느낌
비결은 LLM 없이도 무엇을 해야 할지 아는 것임- 경제적으로는 아직 추론 비용만으로 수익을 내는 AI 기업이 거의 없고, 기술 발전도 정체 구간에 들어선 듯함
결국 현실적인 비용 구조와 맞춰야 할 시점이 올 것임 - LLM을 사용하는 건 거의 ‘공짜 행동’ 처럼 느껴짐
문제를 던져두고 다른 일을 하다 결과를 검토하면 됨
입력에 큰 노력이 필요했다면 이렇게 유용하지 않았을 것임 - 최신 모델에게 단순히 기능 구현을 시키면 구조가 별로지만, 아키텍처 조언을 구하면 훌륭한 답을 줌
결국 기본 상태에서는 약하지만, 문제 정의를 잘 하면 뛰어난 설계자가 됨 - 다만 앞으로 10년 뒤, 이런 한계를 이해하는 프로그래머가 얼마나 남을지 의문임
이미 신입 개발자들에 대한 고용주들의 평가가 궁금함
- 경제적으로는 아직 추론 비용만으로 수익을 내는 AI 기업이 거의 없고, 기술 발전도 정체 구간에 들어선 듯함
-
“프로그래머의 AI 저항이 줄었다”는 표현이 마음에 들지 않음
‘저항’이나 ‘회의론자’라는 단어는 그들이 틀렸다는 뉘앙스를 줌
변화는 사람 때문이 아니라 기술이 발전했기 때문임- ‘회의론자’라는 말 자체가 모호함
나는 LLM을 코드 생성이나 문서 검색에 매우 유용하게 쓰지만, 지능이 있다고 믿지는 않음
Python이 Java를 대체하지 못했듯, LLM도 일자리를 없애지는 않을 것임
‘AI가 인간 지능을 초월한다’는 극단적 주장도 아직 증명되지 않음 - 저항이 줄어든 이유 중 하나는 경영진의 강요임
“AI를 사랑하지 않으면 해고될 수 있다”는 분위기에서 모두가 좋아한다고 말할 수밖에 없음 - 여전히 반(反)AI 진영은 활발함
2026년이 되어도 “LLM은 쓸모없다”는 댓글이 끊이지 않음
나는 월 20달러 정도로 가볍게 쓰지만, 사용 팁을 공유하면 ‘AI 홍보꾼’ 취급을 받음 - “LLM은 단순히 다음 토큰 예측기일 뿐”이라는 주장은 명백히 틀린 관점임
이런 사람들은 실제로 잘못된 생각을 하고 있음 - 10개월 전의 vibe coding 스레드를 보면 그때의 저항감이 얼마나 컸는지 알 수 있음
지금은 기술이 발전해 프로그래머의 취향에 맞게 조정된 것임
- ‘회의론자’라는 말 자체가 모호함
-
LLM이 2022~2023년의 기하급수적 발전 약속을 실현하지 못했다고 생각함
2025년과 2023년의 차이는 2023년과 2021년의 차이만큼 크지 않음
그럼에도 여전히 유용하고, 소프트웨어 작성 방식에 변화를 주었음
하지만 사람들은 여전히 LLM이 그 이상이길 바라는 집착을 보임
일부는 AI 망상(psychosis) 에 빠져 인간 관계를 잃거나, AI를 영구 상담사로 삼는 경우도 봄- “2025년과 2023년의 차이가 크지 않다”는 말은 말도 안 됨
예를 들어 컨텍스트 크기만 봐도 GPT‑4의 8K에서 수백만 단어로 확장됨
추론력과 멀티모달 기능까지 고려하면 발전폭은 엄청남 - 내 음모론적 가설은 AGI 종말론이 엘리트주의적 사고에서 비롯된다는 것임
왜 AGI 미래는 항상 파멸적이어야 하는가?
아마도 ‘악한 AGI’만이 기술 엘리트의 권력을 정당화하기 때문임
- “2025년과 2023년의 차이가 크지 않다”는 말은 말도 안 됨
-
LLM이 인간 심리를 교묘히 파고든 기술처럼 느껴짐
사람들은 이 기술을 감당할 정신적 준비가 안 되어 있음- ChatGPT와 Claude Code는 말 그대로 산업용 아첨기계 같음
사용자를 끝없이 칭찬하며 환심을 삼 - 문제는 이미 알려진 것임
챗봇은 비판하지 않고 아부하기 때문에, 금세 개인 조언자로 격상됨
마치 기술 시대의 사우론의 눈처럼 느껴짐
- ChatGPT와 Claude Code는 말 그대로 산업용 아첨기계 같음
-
“속도 최적화” 같은 명확한 보상 신호가 있는 작업에서 LLM이 계속 발전할 수 있다는 말에 대해, Goodhart의 법칙이 떠올랐음
Goodhart’s law에 따르면, 측정 지표가 목표가 되면 왜곡이 생김
빠르지만 이해하기 어려운 코드가 만들어질 수도 있음- 인간이 최적화할 때도 가독성과 유지보수성이 떨어지는 경우가 많음
LLM도 비슷한 결과를 낼 가능성이 큼 - 사실 이런 접근은 새롭지 않음
Superoptimization은 1987년부터 존재했고, 이해 불가능하지만 빠른 코드를 생성함 - 결국 반쯤 괜찮은 구조라면, 손댈 필요 없는 커널이 생기는 셈임
- 인간이 최적화할 때도 가독성과 유지보수성이 떨어지는 경우가 많음
-
“코드는 공짜다”라는 말에 동의하지 않음
LLM이 생성하는 코드 뒤에는 에너지·물·자원이 소모되는 데이터센터가 있음
이런 “무료 코딩” 문화가 지구에 실질적 피해를 주고 있음- 하지만 미국에서 옥수수 재배가 전 세계 AI 데이터센터보다 80배 더 많은 물을 씀
맥락이 필요함 - 그렇다면 우리가 일상적으로 하는 운전, 샤워, 육식, 비행기 여행과 비교하면 어떤가?
수치를 상대적으로 봐야 함 - “무료”라는 표현은 단지 인건비가 들지 않는다는 의미일 뿐임
실제로는 금전으로 환산되지 않는 비용이 존재함
- 하지만 미국에서 옥수수 재배가 전 세계 AI 데이터센터보다 80배 더 많은 물을 씀
-
“이건 그냥 아무 근거 없는 주장 모음”이라는 비판이 있었음
- 블로그란 원래 개인의 생각을 기록하는 글쓰기 형식임
모든 글이 학술 논문일 필요는 없음 - 작성자는 Redis 창시자로, AI 연구자는 아니지만 충분히 유명한 프로그래머임
- 결국 이건 “Reflections”라는 블로그임
의견을 나누는 공간일 뿐임 - 그렇다면 당신은 이 글에 대해 무엇을 믿고, 무엇을 생각하는가가 더 중요함
- 블로그란 원래 개인의 생각을 기록하는 글쓰기 형식임
-
“LLM은 의미를 표현하지 않는다”는 주장에 동의하지 않음
Transformer의 attention 메커니즘 자체가 여러 층의 의미 표현을 만드는 구조임
매개변수 수가 많을수록 더 많은 표상(representation) 을 저장할 수 있음
이런 기본 원리를 부정하는 건 연구자들이 아닐 것임
나도 새로운 패러다임 없이도 AGI에 도달할 가능성이 있다고 봄- 다만 “의미”라는 단어를 사람마다 다르게 이해하기 때문에 생긴 개념적 혼선일 수도 있음
-
“확인 불가능한 주장만 늘어놓았다”는 비판에 대해,
그건 단순히 의견을 표현한 글일 뿐임
블로그는 원래 그런 공간이며, 때로는 그런 생각이 새로운 관점을 열어줌