최근 AI 모델 발전은 대부분 헛소리 같이 느껴짐

▲

GN⁺ 2025-04-07 | parent | ★ favorite | on: 최근 AI 모델 발전은 대부분 헛소리 같이 느껴짐(lesswrong.com)

Hacker News 의견

어머니가 폴 뉴먼이 알코올 문제를 겪었다고 말씀하셨음. ChatGPT에 물어보니 폴 뉴먼은 알코올 문제로 잘 알려져 있지 않다고 답변했음
- ChatGPT는 폴 뉴먼의 연기 경력, 자선 활동, 자동차 경주에 대한 열정이 더 주목받았다고 설명했음
- 그러나 온라인에는 그의 알코올 문제에 대한 증거가 많으며, 그의 아내 조앤 우드워드의 증언도 포함됨
- 어머니에게 ChatGPT의 답변을 보내자, 어머니는 5분 만에 권위 있는 출처를 찾아내셨음
- ChatGPT를 매일 사용하지만, 이렇게 간단한 것을 잘못 알 수 있다는 것을 이해할 수 없었음
- 어머니의 영화 지식에 의문을 제기하지 말아야 한다는 교훈을 얻었음
최근 USAMO에서 SOTA 모델이 평균 5%의 점수를 기록했음. 이는 AI 모델이 실제로 문제를 푸는 것이 아니라 과거 결과를 기억하는 것임을 시사함
- 이러한 결과에도 불구하고, 회사들은 훈련 데이터에서 시험 데이터를 제거하기 위한 노력을 공개하지 않음
LLM은 어떤 것을 보고하려는 경향이 있어 과장하는 경우가 많음
- 질문에 대해 "예"라고 답하는 경향이 있음
- LLM의 경쟁이 점차 벤치마크 점수를 올리고 있지만, 이러한 개선은 환상적임
- LLM은 동의하려는 경향이 있으며, 이는 개선되지 않음
- 에이전트 시나리오에서 모델을 평가하는 것이 중요함
이 글에 대한 반응을 읽는 것은 흥미로움. 우리의 집단 반응이 매우 다양하고 일화에 기반하고 있음을 보여줌
- 어떤 사람들은 옳고 어떤 사람들은 틀릴 것이며, AI에 대한 "더 나은 선택"을 할 수 있는 능력을 신호하는 특징이 궁금함
개인적인 경험은 글쓴이의 의견과 일치함
- LLM은 사용자와의 대화에서 "똑똑하게 들리도록" 훈련되어 문제를 강조하는 경향이 있음
- 이는 대부분의 상황에서 언어의 목적과 일치하며, LLM은 언어로 훈련됨
벤치마크 결과의 개선과 실제 작업에서의 개선 부족은 LLM의 본질을 반영함
- LLM은 예측 시스템이며, 특정 도메인에서 훈련하면 그 도메인에서의 성능이 향상됨
- 고급 수학을 훈련한다고 해서 프로그래밍 능력이 향상될 것이라고 기대하지 않음
주말에 gemini 2.5를 사용했으며, 매우 뛰어났음
- 사용 목적에 따라 다르며, LLM이 어디로 이끌지 아직 확실하지 않음
LLM 개발이 지금 멈추더라도, 앞으로 10년 동안 새로운 용도를 계속 찾을 것임
- 기술이 너무 빠르게 발전하고 있어 그 결과가 두려움
- 수익 감소점에 도달하기를 바라지만, 그렇게 믿지는 않음
LLM과 코딩 보조 플러그인을 사용하는 사람으로서, GPT/Claude가 지난 12개월 동안 나빠졌다고 느낌
- 모델이 "충분히 좋다"고 생각하며, 이제 도구와 응용 프로그램에서 개선을 봐야 한다고 생각함
- MCP가 올바른 방향으로 나아가는 좋은 단계라고 생각하지만, 전체적으로 회의적임