10P by neo 2일전 | ★ favorite | 댓글 5개
  • LLM은 조합적 작업(Compositional Task)에서 어려움을 겪고 있으며, 이는 그들의 능력에 한계가 있음을 시사
    • 이러한 문제는 LLM이 훈련 데이터에서 본 것을 넘어서는 추론을 할 수 없다는 것을 보여줌
  • 1962년 12월 17일, Life International에 15개의 문장으로 구성된 논리 퍼즐이 실림
  • “영국인은 빨간 집에 산다” 혹은 “중앙 집에서 우유를 마신다”처럼 각 문장이 단서를 제공
  • 다섯 채의 집 색깔, 거주자의 국적, 애완동물, 음료 등 속성이 모두 달랐으며 “누가 얼룩말을 소유하는가”가 핵심 질문이었음
  • 이 문제는 Einstein’s puzzle(또는 riddle)이라고 불리며, 최근 머신 러닝 모델, 특히 대규모 언어 모델(LLM)의 다단계 추론 능력을 측정하는 지표로 사용중
  • Allen Institute for AI의 연구 과학자인 Nouha Dziri와 동료들은 ChatGPT 같은 LLM을 이 퍼즐에 적용해 한계를 확인
  • LLM이 훈련 데이터에서 본 내용 이상의 복잡한 문제를 해결하기 어렵다는 점이 드러남
  • 이는 “단계별로 해결한 결과들을 종합해 최종 해답에 이르는” 결합 추론(compositional reasoning)의 난이도를 보여줌
  • Dziri의 연구팀은 LLM이 단어 예측만으로 학습되는 구조적 한계가 있다고 주장
  • 다른 연구진 또한 현재 widely 사용 중인 트랜스포머(transformer) 아키텍처가 이러한 복잡한 문제 해결에 수학적으로 한계가 있음을 입증
  • 점점 더 강력한 모델이 나오고 있지만 이들이 근본적으로 모든 결합 추론 문제를 해결하지 못할 수 있다는 전망이 제기됨
  • Andrew Wilson(NYU)은 이러한 연구가 AI 연구 커뮤니티가 트랜스포머 중심 접근을 계속 밀고 나갈지 다시 고민하게 한다고 언급

놀라운 성과가 불러온 의문

  • Dziri에 따르면, LLM이 놀라운 언어 능력을 보이기 시작하면서 “진짜 추론이 가능한가”라는 호기심이 커짐
  • LLM은 인터넷에 존재하는 방대한 텍스트로부터 단순한 방식(문장 완성 예측)으로 학습함에도 자연어 처리나 문서 요약, 코드 생성 등 복잡한 작업을 해내고 있음
  • OpenAI의 o1, GPT-4, Google의 Gemini, Anthropic의 Claude 등이 대표적인 거대 모델
  • 하지만 이런 모델들이 때론 인간이 보기엔 간단한 문제에서 뜻밖의 오류를 일으키기도 함
  • 예를 들어, 간단한 곱셈조차 자주 틀리는 사례가 보고됨
  • Dziri의 연구에 따르면 GPT-4에 세 자릿수 곱셈을 시켰을 때 59%만 정확했으며, 네 자릿수 곱셈으로 가면 4%로 크게 떨어짐
  • Einstein’s puzzle의 변형된 버전에서도, 집이 작으면(속성이 2-3개) 높은 정확도를 보였지만, 속성이 4-5개가 되자 성공률이 극적으로 낮아짐
  • GPT-3를 곱셈 데이터 180만 개로 파인튜닝했을 때, 훈련에 포함된 범위 내에서는 잘 풀었으나 훈련 예시와 다른 형식을 묻자 정답률이 급감
  • 이는 모델이 알고리즘 자체를 이해했다기보다 훈련 예시에 의존해 흉내 내는 것에 가깝다는 결론

명백한 한계

  • Dziri와 다른 연구진이 공통적으로 지적하는 문제는 ‘결합 추론 능력’의 부족
  • Binghui Peng(Stanford University)은 콜럼비아대 박사과정 시절, LLM이 ‘아버지의 아버지는 누구인가’ 같은 사실 조합 질문에서 자주 틀린다는 점에 주목
  • 간단한 트랜스포머 계층(레이어)이 이런 문제를 푸는 데 얼마나 많은 매개변수가 필요한지 계산해보았고, 도메인 크기가 모델 파라미터 수보다 크면 해결 불가능하다는 결론을 얻음
  • 이후 다층 트랜스포머로 확장해도, 복잡한 결합 추론 문제에 부딪히면 수학적으로 불가함을 증명
  • 즉, 모델 규모가 커지면 더 어려운 문제를 풀 수는 있으나, 동시에 문제 난이도 또한 확장되면 한계가 드러나는 구조
  • 일부 연구진이 트랜스포머 외의 다른 신경망 구조, 예컨대 state-space models 등을 시도했지만 유사한 한계가 확인됨

한계를 넘어서는 시도

  • LLM의 한계를 극복하기 위해 여러 보완책이 제안되고 있음
  • 예컨대 Tom Goldstein(University of Maryland) 팀은 숫자를 트랜스포머에 입력할 때 위치 정보를 추가로 부여해 더 큰 자리수 연산도 가능하게 함
  • 이런 작업을 통해 20자리 수로 훈련한 모델이 100자리 수 덧셈에도 98% 정확도를 보이는 결과가 나왔음
  • 또 다른 방법으로, 문제 풀이 과정을 프롬프트 안에 단계적으로 제시하는 chain-of-thought 기법도 있음
  • GPT-4 같은 모델은 이 방법을 통해 더 복잡한 문제도 해결할 수 있는 잠재력을 보이는 것으로 관찰됨
  • 이는 ‘큰 문제를 작은 문제들의 연쇄로 분해하는 원리’에 기반을 두고 있으며, 이 방식이 트랜스포머가 처리 가능한 연산 범위를 넓히는 효과를 일으킨다는 이론적 해석이 제시됨
  • 그러나 실제 모델이 모든 문제에서 이 능력을 발휘하는 것은 아니며, 훈련 방식과 모델 구조 등에 따라 결과가 달라짐
  • 궁극적으로 LLM은 패턴 매칭에 기반하고 있기 때문에, 크거나 복잡한 결합 추론 문제의 경우 항상 한계가 존재
  • 그럼에도 일반 사용자 입장에서는 이런 한계가 크게 중요하지 않을 수 있음
  • 반면, 모델을 만드는 연구진에겐 구조적 한계를 이해하고 수정하는 것이 핵심 과제
  • Dziri는 “LLM의 내부 작동 원리를 정확히 파악한다면 근본적 문제를 해결할 가능성이 커진다”고 강조

추론 시대 전 이야기네요

~ 기호가 마크다운 취소선 조판부호로 인식되는 문제가 있어요. 수정해주시면 좋겠습니다.

코딩하면서 LLM을 쓸 때에는 그래서 결합도를 낮추고 관심사 분리를 잘 할 수록 일을 잘 하더군요. 사실 이거는 사람도 그렇지 않을까 싶기도 합니다. ;)

글 자체는 최근인데, 글의 베이스는 o1 이전 것인가봐요.

"아버지의 남동생의 어머니의 여자형제의 딸은 나와 몇촌 관계야?" 같은걸 물어봤는데,
4o는 확실히 한계가 있고, o1은 함정까지 다 피해가던데요.

Hacker News 의견
  • LLM은 다른 머신러닝 모델처럼 입력 데이터를 패턴 매칭하여 통계적으로 가능성이 높은 결과를 도출하는 특성을 가짐

    • "Chain of thought"는 강화 학습과 결합하여 어려운 문제를 해결할 수 있게 함
    • 성공의 명확한 정의와 보상 모델이 필요함
    • 인간의 문제 해결 능력도 패턴 매칭에 의존하며, 인간은 대량의 정보를 효율적으로 통합할 수 있음
  • LLM은 AI의 경이로움으로, 예전에는 불가능하다고 여겨졌던 것을 두 달마다 발전시키고 있음

    • 일부 과학자들은 LLM의 성과를 과소평가하고 있음
    • LeCun은 LLM이 막다른 길이라며 연구자들에게 다른 방향을 제시했음
    • Meta의 LLM 성과가 다른 회사들보다 뒤쳐져 있다는 점이 이러한 회의론과 관련이 있을 수 있음
  • LLM 연구에 대한 잘못된 정보가 많음

    • 6-12개월 된 모델은 단순한 사고만 가능함
    • 복잡한 논리적, 알고리즘적 작업에는 시스템 2 사고가 필요함
    • LLM은 프로그래밍을 통해 사고할 수 있음
  • o3-mini-high는 Prolog 코드를 빠르게 생성할 수 있었음

    • 예시로 주어진 Prolog 코드는 문제를 해결하는 데 성공적이었음
  • 최근 연구 결과는 GPT-3, 3.5, 첫 번째 세대 4를 다루고 있음

  • ChatGPT는 빠른 검색 엔진처럼 느껴지며, 많은 환각과 제한된 문맥을 가짐

    • 미래의 발전에 대한 약속은 많지만 실제 진전은 적음
  • 연구 결과가 순수 LLM을 분석하는지, LLM 합성 엔진을 분석하는지 구분해야 함

    • o3의 ARC-AGI-1에서의 성과는 합성 엔진의 능력을 보여줌
  • LLM은 2D 또는 3D 사고를 요구하는 간단한 질문에서 실패할 수 있음

    • AI는 2D/3D 세계를 잘 표현할 수 있도록 훈련될 수 있음
  • LLM의 제한 사항이 기사에 언급되면, 몇 달 후에는 그 제한이 없는 챗봇이 등장함

    • 이러한 제한은 근본적인 것이 아님
  • 학술 연구가 출판될 때쯤에는 이미 몇 달이 지난 경우가 많음

    • 최신 기술의 한계를 알고 싶다면 연구 논문보다 소셜 미디어를 참고하는 것이 나음