# 최근 AI 모델 발전은 대부분 헛소리 같이 느껴짐

> Clean Markdown view of GeekNews topic #20193. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=20193](https://news.hada.io/topic?id=20193)
- GeekNews Markdown: [https://news.hada.io/topic/20193.md](https://news.hada.io/topic/20193.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-04-07T12:34:36+09:00
- Updated: 2025-04-07T12:34:36+09:00
- Original source: [lesswrong.com](https://www.lesswrong.com/posts/4mvphwx5pdsZLMmpY/recent-ai-model-progress-feels-mostly-like-bullshit)
- Points: 6
- Comments: 5

## Summary

9개월 전 AI가 **코드 보안 분석**을 잘 수행할 수 있다고 판단하여 스타트업을 설립했으나, 이후 모델들의 실질적인 성능 개선은 미미했습니다. AI 모델은 벤치마크에서는 좋은 성적을 내지만, **실제 업무 능력에는 거의 반영되지 않으며**, 이는 벤치마크가 짧고 고립된 문제에 집중되어 있기 때문입니다. AI 연구소들은 성능을 과장하거나 **선택적으로 좋은 결과만 공개**할 유인이 있으며, 벤치마크는 현실에서의 총체적 능력과 관련성이 낮습니다. AI 모델은 **작업 맥락을 잘 이해하지 못하고**, 불필요한 경고를 자주 출력하며, 이는 근본적인 정렬 문제 해결이 필요함을 시사합니다.

## Topic Body

- 9개월전에 AI가 실제로 사람을 대체할 수 있을 정도로 **코드 보안 분석**을 잘 수행할 수 있다고 판단하여 스타트업을 설립함  
- 초기에는 GPT-4o에서 Claude 3.5 sonnet으로 변경하자, 보안 취약점 설명과 심각도 판단에서 **질적으로 큰 향상**이 있었음  
- 하지만 이후 Claude 3.6, 3.7을 포함한 대부분의 모델들은 내부 벤치마크나 버그 탐지 능력에 실질적인 개선을 보이지 않음  
- 성능 향상은 주로 AI 모델 자체가 아닌 일반적인 엔지니어링 개선 덕분이었음  
- 다른 스타트업들도 비슷한 경험을 했으며, 대부분 **새로운 모델 발표 → 벤치마크 상 좋은 성능 → 실제 성능은 미미함**의 사이클을 경험함  
- 작성자는 **현재 AI 모델의 발전**이 경제적 유용성이나 일반화 능력에서 의미 있는 수준은 아니라고 판단함  
  
### AI 벤치마크와 실제 성능의 괴리  
  
- AI 모델이 시험에서는 좋은 성적을 내지만, **실제 업무 능력에는 거의 반영되지 않음**  
- 벤치마크는 주로 짧고 고립된 문제에 집중되어 있으며, 실제 응용에는 부적합함  
- 예시로 Claude 모델은 Pokémon 게임을 끝내지 못할 정도로 장기 기억 유지가 어려움  
- ‘Humanity’s Last Exam’ 같은 벤치마크는 언뜻 중요해 보이지만, **실제 유용성을 제대로 평가하지 못함 **   
- 작성자는 앞으로 AI 성능을 판단할 때, Claude Plays Pokemon 같은 실제 사용 기반 벤치마크만 신뢰할 예정임  
  
### AI 연구소의 신뢰성 문제  
  
- AI 연구소는 문명적 경쟁 속에 있으며, 일부는 성능을 과장하거나 **선택적으로 좋은 결과만 공개**할 유인이 있음  
- 실제로 OpenAI, Anthropic 등이 사용하는 벤치마크는 대부분 공개된 테스트셋 기반으로 조작 가능성 존재  
- ARC-AGI와 같은 반쯤 비공개된 평가 외에는 거의 모든 결과가 훈련된 데이터셋 기반일 가능성이 있음  
- 가장 낙관적인 해석은, 문제가 기술적 한계가 아닌 인간의 부정행위라는 점임  
  
### 벤치마크가 실제 유용성을 반영하지 못하는 구조적 이유  
  
- 인간의 IQ 테스트는 다양한 실제 성과와 상관관계를 가지지만, AI 벤치마크는 그렇지 않음  
- AI 벤치마크는 대부분 **독립된 퍼즐**이나 **단기적 문제 해결 위주**로 구성되어 있음  
- AI가 실제 문제에서 요구되는 기억, 상황 인식, 목표 추적 등에는 매우 취약함  
- 벤치마크는 개발이나 평가에는 편리하지만, **현실에서의 총체적 능력과는 관련성이 낮음**  
  
### AI 모델이 똑똑하지만 정렬(alignment) 문제로 성능 제한 가능성  
  
- 작성자의 회사는 실제 코드 보안 점검에 AI를 사용하는데, 모델은 **작업 맥락을 잘 이해하지 못함**  
- 모델은 실제 서비스에 영향을 미치는 문제만 보고하라는 지침을 따르지 못하고, 불필요한 경고를 자주 출력함  
- 이는 모델이 "**똑똑해 보이는**" 반응을 **선호하게 훈련**되었기 때문임  
- 대화용으로는 괜찮지만, 시스템에 조합해 사용하려 하면 오류가 누적되어 문제로 이어짐  
- 외형적 증상만 수정하려는 시도는 장기적으로 위험하며, 근본적인 정렬 문제 해결이 필요함  
  
### 마무리 생각 및 사회적 함의  
  
- 현재 AI가 과장된 기대에 비해 실제 성능은 떨어지며, 이는 많은 사용자의 ‘삶의 경험’과 일치함  
- 정렬되지 않은 AI 시스템이 사회 전반에 영향을 미치기 전에, 더 근본적인 이해와 설계가 필요함  
- 단순한 결과 중심의 벤치마크보다, **실제 사용 시나리오를 반영한 정성적 평가가 중요함**

## Comments



### Comment 36906

- Author: ifmkl
- Created: 2025-04-08T17:20:24+09:00
- Points: 1

동감합니다. perplexity에서 claude 3.7 모델로 잘 쓰고 있지만 최근 gemini 2.5도 쓰고 있는데 정말 성능이 좋다고 체감하며 쓰고 있습니다.

### Comment 36852

- Author: say8425
- Created: 2025-04-07T16:48:23+09:00
- Points: 1

요즘은 왜 이렇게 경제지 같은 뉴스밖에 안 올라오지

### Comment 36859

- Author: sjisrich
- Created: 2025-04-07T19:03:19+09:00
- Points: 1
- Parent comment: 36852
- Depth: 1

나는 너무 좋은뎅...

### Comment 36846

- Author: kandk
- Created: 2025-04-07T15:57:29+09:00
- Points: 2

요즘 이정도 제목은 써줘야 어그로가 먹히나보네요.

### Comment 36842

- Author: neo
- Created: 2025-04-07T12:34:36+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43603453) 
* 어머니가 폴 뉴먼이 알코올 문제를 겪었다고 말씀하셨음. ChatGPT에 물어보니 폴 뉴먼은 알코올 문제로 잘 알려져 있지 않다고 답변했음
  - ChatGPT는 폴 뉴먼의 연기 경력, 자선 활동, 자동차 경주에 대한 열정이 더 주목받았다고 설명했음
  - 그러나 온라인에는 그의 알코올 문제에 대한 증거가 많으며, 그의 아내 조앤 우드워드의 증언도 포함됨
  - 어머니에게 ChatGPT의 답변을 보내자, 어머니는 5분 만에 권위 있는 출처를 찾아내셨음
  - ChatGPT를 매일 사용하지만, 이렇게 간단한 것을 잘못 알 수 있다는 것을 이해할 수 없었음
  - 어머니의 영화 지식에 의문을 제기하지 말아야 한다는 교훈을 얻었음

* 최근 USAMO에서 SOTA 모델이 평균 5%의 점수를 기록했음. 이는 AI 모델이 실제로 문제를 푸는 것이 아니라 과거 결과를 기억하는 것임을 시사함
  - 이러한 결과에도 불구하고, 회사들은 훈련 데이터에서 시험 데이터를 제거하기 위한 노력을 공개하지 않음

* LLM은 어떤 것을 보고하려는 경향이 있어 과장하는 경우가 많음
  - 질문에 대해 "예"라고 답하는 경향이 있음
  - LLM의 경쟁이 점차 벤치마크 점수를 올리고 있지만, 이러한 개선은 환상적임
  - LLM은 동의하려는 경향이 있으며, 이는 개선되지 않음
  - 에이전트 시나리오에서 모델을 평가하는 것이 중요함

* 이 글에 대한 반응을 읽는 것은 흥미로움. 우리의 집단 반응이 매우 다양하고 일화에 기반하고 있음을 보여줌
  - 어떤 사람들은 옳고 어떤 사람들은 틀릴 것이며, AI에 대한 "더 나은 선택"을 할 수 있는 능력을 신호하는 특징이 궁금함

* 개인적인 경험은 글쓴이의 의견과 일치함
  - LLM은 사용자와의 대화에서 "똑똑하게 들리도록" 훈련되어 문제를 강조하는 경향이 있음
  - 이는 대부분의 상황에서 언어의 목적과 일치하며, LLM은 언어로 훈련됨

* 벤치마크 결과의 개선과 실제 작업에서의 개선 부족은 LLM의 본질을 반영함
  - LLM은 예측 시스템이며, 특정 도메인에서 훈련하면 그 도메인에서의 성능이 향상됨
  - 고급 수학을 훈련한다고 해서 프로그래밍 능력이 향상될 것이라고 기대하지 않음

* 주말에 gemini 2.5를 사용했으며, 매우 뛰어났음
  - 사용 목적에 따라 다르며, LLM이 어디로 이끌지 아직 확실하지 않음

* LLM 개발이 지금 멈추더라도, 앞으로 10년 동안 새로운 용도를 계속 찾을 것임
  - 기술이 너무 빠르게 발전하고 있어 그 결과가 두려움
  - 수익 감소점에 도달하기를 바라지만, 그렇게 믿지는 않음

* LLM과 코딩 보조 플러그인을 사용하는 사람으로서, GPT/Claude가 지난 12개월 동안 나빠졌다고 느낌
  - 모델이 "충분히 좋다"고 생각하며, 이제 도구와 응용 프로그램에서 개선을 봐야 한다고 생각함
  - MCP가 올바른 방향으로 나아가는 좋은 단계라고 생각하지만, 전체적으로 회의적임
