▲GN⁺ 2025-04-07 | parent | ★ favorite | on: 최근 AI 모델 발전은 대부분 헛소리 같이 느껴짐(lesswrong.com)Hacker News 의견 어머니가 폴 뉴먼이 알코올 문제를 겪었다고 말씀하셨음. ChatGPT에 물어보니 폴 뉴먼은 알코올 문제로 잘 알려져 있지 않다고 답변했음 ChatGPT는 폴 뉴먼의 연기 경력, 자선 활동, 자동차 경주에 대한 열정이 더 주목받았다고 설명했음 그러나 온라인에는 그의 알코올 문제에 대한 증거가 많으며, 그의 아내 조앤 우드워드의 증언도 포함됨 어머니에게 ChatGPT의 답변을 보내자, 어머니는 5분 만에 권위 있는 출처를 찾아내셨음 ChatGPT를 매일 사용하지만, 이렇게 간단한 것을 잘못 알 수 있다는 것을 이해할 수 없었음 어머니의 영화 지식에 의문을 제기하지 말아야 한다는 교훈을 얻었음 최근 USAMO에서 SOTA 모델이 평균 5%의 점수를 기록했음. 이는 AI 모델이 실제로 문제를 푸는 것이 아니라 과거 결과를 기억하는 것임을 시사함 이러한 결과에도 불구하고, 회사들은 훈련 데이터에서 시험 데이터를 제거하기 위한 노력을 공개하지 않음 LLM은 어떤 것을 보고하려는 경향이 있어 과장하는 경우가 많음 질문에 대해 "예"라고 답하는 경향이 있음 LLM의 경쟁이 점차 벤치마크 점수를 올리고 있지만, 이러한 개선은 환상적임 LLM은 동의하려는 경향이 있으며, 이는 개선되지 않음 에이전트 시나리오에서 모델을 평가하는 것이 중요함 이 글에 대한 반응을 읽는 것은 흥미로움. 우리의 집단 반응이 매우 다양하고 일화에 기반하고 있음을 보여줌 어떤 사람들은 옳고 어떤 사람들은 틀릴 것이며, AI에 대한 "더 나은 선택"을 할 수 있는 능력을 신호하는 특징이 궁금함 개인적인 경험은 글쓴이의 의견과 일치함 LLM은 사용자와의 대화에서 "똑똑하게 들리도록" 훈련되어 문제를 강조하는 경향이 있음 이는 대부분의 상황에서 언어의 목적과 일치하며, LLM은 언어로 훈련됨 벤치마크 결과의 개선과 실제 작업에서의 개선 부족은 LLM의 본질을 반영함 LLM은 예측 시스템이며, 특정 도메인에서 훈련하면 그 도메인에서의 성능이 향상됨 고급 수학을 훈련한다고 해서 프로그래밍 능력이 향상될 것이라고 기대하지 않음 주말에 gemini 2.5를 사용했으며, 매우 뛰어났음 사용 목적에 따라 다르며, LLM이 어디로 이끌지 아직 확실하지 않음 LLM 개발이 지금 멈추더라도, 앞으로 10년 동안 새로운 용도를 계속 찾을 것임 기술이 너무 빠르게 발전하고 있어 그 결과가 두려움 수익 감소점에 도달하기를 바라지만, 그렇게 믿지는 않음 LLM과 코딩 보조 플러그인을 사용하는 사람으로서, GPT/Claude가 지난 12개월 동안 나빠졌다고 느낌 모델이 "충분히 좋다"고 생각하며, 이제 도구와 응용 프로그램에서 개선을 봐야 한다고 생각함 MCP가 올바른 방향으로 나아가는 좋은 단계라고 생각하지만, 전체적으로 회의적임
Hacker News 의견
어머니가 폴 뉴먼이 알코올 문제를 겪었다고 말씀하셨음. ChatGPT에 물어보니 폴 뉴먼은 알코올 문제로 잘 알려져 있지 않다고 답변했음
최근 USAMO에서 SOTA 모델이 평균 5%의 점수를 기록했음. 이는 AI 모델이 실제로 문제를 푸는 것이 아니라 과거 결과를 기억하는 것임을 시사함
LLM은 어떤 것을 보고하려는 경향이 있어 과장하는 경우가 많음
이 글에 대한 반응을 읽는 것은 흥미로움. 우리의 집단 반응이 매우 다양하고 일화에 기반하고 있음을 보여줌
개인적인 경험은 글쓴이의 의견과 일치함
벤치마크 결과의 개선과 실제 작업에서의 개선 부족은 LLM의 본질을 반영함
주말에 gemini 2.5를 사용했으며, 매우 뛰어났음
LLM 개발이 지금 멈추더라도, 앞으로 10년 동안 새로운 용도를 계속 찾을 것임
LLM과 코딩 보조 플러그인을 사용하는 사람으로서, GPT/Claude가 지난 12개월 동안 나빠졌다고 느낌