6P by GN⁺ 11일전 | ★ favorite | 댓글 5개
  • 9개월전에 AI가 실제로 사람을 대체할 수 있을 정도로 코드 보안 분석을 잘 수행할 수 있다고 판단하여 스타트업을 설립함
  • 초기에는 GPT-4o에서 Claude 3.5 sonnet으로 변경하자, 보안 취약점 설명과 심각도 판단에서 질적으로 큰 향상이 있었음
  • 하지만 이후 Claude 3.6, 3.7을 포함한 대부분의 모델들은 내부 벤치마크나 버그 탐지 능력에 실질적인 개선을 보이지 않음
  • 성능 향상은 주로 AI 모델 자체가 아닌 일반적인 엔지니어링 개선 덕분이었음
  • 다른 스타트업들도 비슷한 경험을 했으며, 대부분 새로운 모델 발표 → 벤치마크 상 좋은 성능 → 실제 성능은 미미함의 사이클을 경험함
  • 작성자는 현재 AI 모델의 발전이 경제적 유용성이나 일반화 능력에서 의미 있는 수준은 아니라고 판단함

AI 벤치마크와 실제 성능의 괴리

  • AI 모델이 시험에서는 좋은 성적을 내지만, 실제 업무 능력에는 거의 반영되지 않음
  • 벤치마크는 주로 짧고 고립된 문제에 집중되어 있으며, 실제 응용에는 부적합함
  • 예시로 Claude 모델은 Pokémon 게임을 끝내지 못할 정도로 장기 기억 유지가 어려움
  • ‘Humanity’s Last Exam’ 같은 벤치마크는 언뜻 중요해 보이지만, **실제 유용성을 제대로 평가하지 못함 **
  • 작성자는 앞으로 AI 성능을 판단할 때, Claude Plays Pokemon 같은 실제 사용 기반 벤치마크만 신뢰할 예정임

AI 연구소의 신뢰성 문제

  • AI 연구소는 문명적 경쟁 속에 있으며, 일부는 성능을 과장하거나 선택적으로 좋은 결과만 공개할 유인이 있음
  • 실제로 OpenAI, Anthropic 등이 사용하는 벤치마크는 대부분 공개된 테스트셋 기반으로 조작 가능성 존재
  • ARC-AGI와 같은 반쯤 비공개된 평가 외에는 거의 모든 결과가 훈련된 데이터셋 기반일 가능성이 있음
  • 가장 낙관적인 해석은, 문제가 기술적 한계가 아닌 인간의 부정행위라는 점임

벤치마크가 실제 유용성을 반영하지 못하는 구조적 이유

  • 인간의 IQ 테스트는 다양한 실제 성과와 상관관계를 가지지만, AI 벤치마크는 그렇지 않음
  • AI 벤치마크는 대부분 독립된 퍼즐이나 단기적 문제 해결 위주로 구성되어 있음
  • AI가 실제 문제에서 요구되는 기억, 상황 인식, 목표 추적 등에는 매우 취약함
  • 벤치마크는 개발이나 평가에는 편리하지만, 현실에서의 총체적 능력과는 관련성이 낮음

AI 모델이 똑똑하지만 정렬(alignment) 문제로 성능 제한 가능성

  • 작성자의 회사는 실제 코드 보안 점검에 AI를 사용하는데, 모델은 작업 맥락을 잘 이해하지 못함
  • 모델은 실제 서비스에 영향을 미치는 문제만 보고하라는 지침을 따르지 못하고, 불필요한 경고를 자주 출력함
  • 이는 모델이 "똑똑해 보이는" 반응을 선호하게 훈련되었기 때문임
  • 대화용으로는 괜찮지만, 시스템에 조합해 사용하려 하면 오류가 누적되어 문제로 이어짐
  • 외형적 증상만 수정하려는 시도는 장기적으로 위험하며, 근본적인 정렬 문제 해결이 필요함

마무리 생각 및 사회적 함의

  • 현재 AI가 과장된 기대에 비해 실제 성능은 떨어지며, 이는 많은 사용자의 ‘삶의 경험’과 일치함
  • 정렬되지 않은 AI 시스템이 사회 전반에 영향을 미치기 전에, 더 근본적인 이해와 설계가 필요함
  • 단순한 결과 중심의 벤치마크보다, 실제 사용 시나리오를 반영한 정성적 평가가 중요함

요즘 이정도 제목은 써줘야 어그로가 먹히나보네요.

동감합니다. perplexity에서 claude 3.7 모델로 잘 쓰고 있지만 최근 gemini 2.5도 쓰고 있는데 정말 성능이 좋다고 체감하며 쓰고 있습니다.

요즘은 왜 이렇게 경제지 같은 뉴스밖에 안 올라오지

나는 너무 좋은뎅...

Hacker News 의견
  • 어머니가 폴 뉴먼이 알코올 문제를 겪었다고 말씀하셨음. ChatGPT에 물어보니 폴 뉴먼은 알코올 문제로 잘 알려져 있지 않다고 답변했음

    • ChatGPT는 폴 뉴먼의 연기 경력, 자선 활동, 자동차 경주에 대한 열정이 더 주목받았다고 설명했음
    • 그러나 온라인에는 그의 알코올 문제에 대한 증거가 많으며, 그의 아내 조앤 우드워드의 증언도 포함됨
    • 어머니에게 ChatGPT의 답변을 보내자, 어머니는 5분 만에 권위 있는 출처를 찾아내셨음
    • ChatGPT를 매일 사용하지만, 이렇게 간단한 것을 잘못 알 수 있다는 것을 이해할 수 없었음
    • 어머니의 영화 지식에 의문을 제기하지 말아야 한다는 교훈을 얻었음
  • 최근 USAMO에서 SOTA 모델이 평균 5%의 점수를 기록했음. 이는 AI 모델이 실제로 문제를 푸는 것이 아니라 과거 결과를 기억하는 것임을 시사함

    • 이러한 결과에도 불구하고, 회사들은 훈련 데이터에서 시험 데이터를 제거하기 위한 노력을 공개하지 않음
  • LLM은 어떤 것을 보고하려는 경향이 있어 과장하는 경우가 많음

    • 질문에 대해 "예"라고 답하는 경향이 있음
    • LLM의 경쟁이 점차 벤치마크 점수를 올리고 있지만, 이러한 개선은 환상적임
    • LLM은 동의하려는 경향이 있으며, 이는 개선되지 않음
    • 에이전트 시나리오에서 모델을 평가하는 것이 중요함
  • 이 글에 대한 반응을 읽는 것은 흥미로움. 우리의 집단 반응이 매우 다양하고 일화에 기반하고 있음을 보여줌

    • 어떤 사람들은 옳고 어떤 사람들은 틀릴 것이며, AI에 대한 "더 나은 선택"을 할 수 있는 능력을 신호하는 특징이 궁금함
  • 개인적인 경험은 글쓴이의 의견과 일치함

    • LLM은 사용자와의 대화에서 "똑똑하게 들리도록" 훈련되어 문제를 강조하는 경향이 있음
    • 이는 대부분의 상황에서 언어의 목적과 일치하며, LLM은 언어로 훈련됨
  • 벤치마크 결과의 개선과 실제 작업에서의 개선 부족은 LLM의 본질을 반영함

    • LLM은 예측 시스템이며, 특정 도메인에서 훈련하면 그 도메인에서의 성능이 향상됨
    • 고급 수학을 훈련한다고 해서 프로그래밍 능력이 향상될 것이라고 기대하지 않음
  • 주말에 gemini 2.5를 사용했으며, 매우 뛰어났음

    • 사용 목적에 따라 다르며, LLM이 어디로 이끌지 아직 확실하지 않음
  • LLM 개발이 지금 멈추더라도, 앞으로 10년 동안 새로운 용도를 계속 찾을 것임

    • 기술이 너무 빠르게 발전하고 있어 그 결과가 두려움
    • 수익 감소점에 도달하기를 바라지만, 그렇게 믿지는 않음
  • LLM과 코딩 보조 플러그인을 사용하는 사람으로서, GPT/Claude가 지난 12개월 동안 나빠졌다고 느낌

    • 모델이 "충분히 좋다"고 생각하며, 이제 도구와 응용 프로그램에서 개선을 봐야 한다고 생각함
    • MCP가 올바른 방향으로 나아가는 좋은 단계라고 생각하지만, 전체적으로 회의적임