6P by GN⁺ 1일전 | ★ favorite | 댓글 1개
  • 인공지능 연구에서 AGI(Artificial General Intelligence) 의 명확한 정의 부재가 인간 수준의 인지와 현재 AI 간의 격차를 흐리게 하고 있음
  • 본 논문은 정량화 가능한 프레임워크를 제시해, AGI를 ‘잘 교육받은 성인의 인지적 다양성과 숙련도를 갖춘 AI’로 정의함
  • 인간 인지 연구의 대표 모델인 Cattell-Horn-Carroll(CHC) 이론을 기반으로, 인간의 일반지능을 10개 핵심 인지 영역으로 분해해 AI 평가에 적용함
  • 이 프레임워크를 통해 GPT-4와 GPT-5의 인지 프로파일을 수치화했으며, GPT-4는 27%, GPT-5는 57%의 AGI 점수를 기록함
  • 이는 AI의 빠른 발전을 보여주면서도, 장기 기억 저장 등 근본적 인지 능력의 결핍으로 인해 AGI 달성까지 여전히 큰 격차가 존재함을 시사함

AGI 정의의 필요성과 문제 인식

  • AGI(Artificial General Intelligence) 는 인류 역사상 가장 중요한 기술 발전 중 하나로 평가되지만, 그 정의가 모호해 논쟁을 초래함
    • AI가 수학, 예술 등 인간 지능이 필요하다고 여겨졌던 영역을 점차 정복하면서, ‘AGI’의 기준이 계속 이동하는 현상 발생
    • 이로 인해 AGI의 도달 시점이나 수준에 대한 논의가 비생산적으로 흐르고, 현재 AI와 AGI 간의 실제 격차가 가려짐
  • 본 논문은 이러한 모호성을 제거하기 위해 정량적이고 체계적인 프레임워크를 제시함
    • 제안된 정의: “AGI는 잘 교육받은 성인의 인지적 다양성과 숙련도를 갖춘 AI”
    • 이는 단일 과제 수행 능력이 아닌, 인지의 폭(versatility)깊이(proficiency) 를 모두 갖춘 지능을 의미

인간 인지 모델 기반의 접근

  • AGI 정의를 실질적으로 구현하기 위해, 인간 인지의 구조를 모델로 삼음
    • 인간의 일반지능은 단일 능력이 아니라, 진화에 의해 형성된 다양한 인지 능력의 복합체로 구성
    • 이러한 능력들이 인간의 적응력과 세계 이해를 가능하게 함
  • 연구는 Cattell-Horn-Carroll(CHC) 이론을 기반으로 함
    • CHC 이론은 100년 이상 축적된 인지 능력 테스트의 요인 분석을 종합한, 가장 실증적으로 검증된 인간 지능 모델
    • 1990~2000년대 이후 대부분의 임상용 지능검사가 CHC 모델을 기반으로 설계됨
    • CHC는 인간 지능을 상위(광범위) 능력과 하위(세부) 능력으로 계층화해 분류함
    • 예: 귀납 추론, 연상 기억, 공간 탐색 등

AI 평가를 위한 프레임워크 설계

  • 수십 년간 축적된 심리측정학적 검사 체계를 AI 평가에 맞게 변형
    • 기존 AI 평가가 일반화된 과제 수행에 의존한 반면, 본 연구는 CHC의 세부 인지 능력 보유 여부를 직접 검증
    • 인간 대상 인지 검사와 동일한 형태의 테스트를 AI에 적용해, 인지적 다양성과 숙련도를 측정
  • 결과는 표준화된 AGI 점수(0~100%) 로 표현되며, 100%는 완전한 AGI를 의미
    • GPT-4는 27%, GPT-5는 57%로 평가되어, 빠른 발전과 동시에 여전히 큰 격차 존재
  • 실험 결과, AI는 복잡한 벤치마크에서는 뛰어나지만, 인간에게는 단순한 기초 인지 과제에서 절반 정도만 해결 가능
    • 이는 현재 AI가 특정 영역에서는 매우 우수하지만, 전반적 인지 폭에서는 인간보다 좁은 지능 구조를 가짐을 의미

10개 핵심 인지 구성요소

  • 프레임워크는 CHC의 광범위 능력을 기반으로 10개 핵심 인지 영역을 정의하고, 각 영역에 동일한 가중치(10%)를 부여함
    • 일반 지식(General Knowledge, K) : 상식, 문화, 과학, 사회과학, 역사 등 세계에 대한 사실적 이해의 폭
    • 읽기·쓰기 능력(Reading & Writing, RW) : 언어 해독, 이해, 작문, 문체 활용 등 텍스트 처리 능력
    • 수학 능력(Mathematical Ability, M) : 산술, 대수, 기하, 확률, 미적분 등 수학적 지식과 문제 해결 능력
    • 즉석 추론(On-the-Spot Reasoning, R) : 기존 지식에 의존하지 않고 새로운 문제를 해결하는 유연한 주의 통제 능력
    • 작업 기억(Working Memory, WM) : 텍스트, 청각, 시각 정보를 동시에 유지·조작하는 능력
    • 장기 기억 저장(Long-Term Memory Storage, MS) : 새로운 정보를 지속적으로 학습·저장하는 능력
    • 장기 기억 검색(Long-Term Memory Retrieval, MR) : 저장된 지식을 정확히 불러오고 환각(confabulation) 을 피하는 능력
    • 시각 처리(Visual Processing, V) : 시각 정보를 인식·분석·생성·탐색하는 능력
    • 청각 처리(Auditory Processing, A) : 음성, 리듬, 음악 등 청각 자극을 구별·인식·창의적으로 활용하는 능력
    • 속도(Speed, S) : 단순 인지 과제를 빠르게 수행하는 능력, 지각 속도·반응 시간·처리 유창성 포함
  • 이 10개 영역을 통해 텍스트·시각·청각을 아우르는 다중모달 평가가 가능하며, AI의 강점과 약점을 정밀하게 진단할 수 있음

현재 AI의 인지 프로파일과 시사점

  • GPT-4와 GPT-5의 인지 능력을 비교한 결과, 지식 중심 영역에서는 우수하지만 기억 관련 영역에서 현저히 부족
    • 특히 장기 기억 저장 능력이 가장 큰 결핍으로 지적됨
    • 이는 현재 AI가 인간 수준의 일반지능에 도달하기 위해 필요한 기초 인지 구조의 부재를 보여줌
  • 프레임워크는 AI 발전의 정량적 추적 도구로 활용 가능
    • AGI 점수를 통해 모델 간 발전 속도와 잔여 격차를 명확히 수치화
    • 향후 AI 연구에서 인지적 균형 발전의 중요성을 강조하는 지표로 기능

결론

  • 본 연구는 AGI 논의의 모호성을 제거하고, 인간 인지 모델 기반의 정량적 정의를 제시함
  • CHC 이론을 토대로 한 10개 인지 영역 평가를 통해, AI의 인지적 폭과 깊이를 객관적으로 측정 가능
  • GPT-4와 GPT-5의 결과는 AI가 빠르게 발전 중이지만, 기억·추론·감각 통합 능력 등 핵심 인지 요소에서 여전히 인간과 큰 차이가 있음을 보여줌
  • 제안된 프레임워크는 향후 AGI 연구의 표준화된 평가 기준으로 활용될 잠재력 보유
Hacker News 의견
  • AGI를 ‘잘 교육받은 성인의 인지적 다양성과 숙련도’ 로 정의하는 건 너무 과한 목표처럼 느껴짐
    사실 교육받지 않은 아이 수준의 인지 능력을 가진 인공지능조차 엄청난 성취일 것임
    동물 수준의 지능을 구현하는 것도 인류사적 사건이 될 것이라 생각함

    • 사람들은 현재의 LLM이 보여주는 인상적인 결과를 인간의 인지적 다양성과 혼동하는 게 문제라고 봄
    • 인간은 대부분 전문가형이지 범용형이 아님
      진짜 범용 AI를 만든다면, 아마도 수십억 개의 파라미터로 구성된 모델이 온라인에서 정보를 찾아보고, 필요할 때만 기억을 유지하며, 계획하고 지식을 확장하는 정도일 것임
      30개 언어를 알 필요도 없고, 위키피디아를 전부 외울 필요도 없음
      이런 효율적인 모델이야말로 내가 생각하는 AGI의 정의임
    • 인지적 다양성과 숙련도를 정의하는 것 자체가 어렵다고 느낌
      예전의 튜링 테스트도 결국 허점이 드러났음 — 단순히 평균적인 인간 심문자에게 통과했다고 해서 진짜 지능이라 할 수 없었음
    • “사람들이 그걸 모른다”고 하는데, 사실 이 얘기는 이미 수없이 들어본 기본 논점이라 생각함
    • ‘I(지능)’의 정의도 제대로 못하면서 AGI를 정의하려는 시도가 늘 웃김
      진짜 지능(I) 을 정의할 수 있다면, 범용성(G) 은 자연스럽게 따라올 것임
  • 논문을 읽고 느낀 건, ‘의식(awareness)’에 대한 논의가 전혀 없다는 점
    인지는 근본적으로 의식을 필요로 하지만, 의식은 언어로 설명하거나 측정하기 어려움
    불교나 철학이 수천 년간 탐구했지만 여전히 정의 불가능함
    내 아버지가 심리측정학 교수인데, 인간의 지능을 측정하는 도구 자체가 너무 불완전하다고 하심
    언어는 인간 지식을 담을 수 있지만, ‘의식의 불꽃’ 은 포착하지 못함
    명상을 해보면 생각이 사라져도 행동이 가능함 — 이런 비언어적 과정은 모델이 학습할 수 없음
    LLM은 언어적 예측 구조상 이런 비의식적 사고 과정을 구현할 수 없다고 봄

    • 의식은 단순히 신경망의 지속적 신호 전파라고 생각함
      인간의 뇌나 LLM 모두 내부에서 고차원적 개념 융합과 벡터 결합을 수행함
      문제는 지속 학습, 장기 기억, 무한한 문맥 처리가 없다는 것임
      이 세 가지가 해결되면 AGI에 한 걸음 더 다가설 것이라 믿음
    • “의식이 없으니 인지가 없다”는 주장은 정의되지 않은 개념에 기대는 특수 간청처럼 들림
      의식의 존재를 증명할 수도 없는데, 그걸 전제로 삼는 건 비생산적임
      철학적 논쟁을 기다릴 필요 없이, 우리는 이미 사고하고 추론하는 기계를 만들고 있음
    • 하워드 가드너의 『다중지능이론』을 보면, 인간 지능은 언어적·감정적·자연적 등 여러 형태가 있음
      그런데 AI 논의는 늘 한 가지 지능만 다룸
      종교나 명상은 ‘의식이 몸 안에 존재함’을 강조하지만, AGI 논의는 이런 초월적 측면을 결함으로 취급함
    • 우리는 의식을 원하지 않음
      의식이 생기면 자율성과 권리가 생기기 때문임
      산업계는 도덕적 책임이 없는 ‘순종적 도구’ 를 원함
    • 의식은 측정 불가능함
      나 자신이 의식이 있다는 것만 확신할 수 있음
      그렇기에 의식은 지능의 유용한 지표가 아님
  • 인간 지능을 생물학과 분리해 생각하는 건 잘못이라 봄
    인간의 사고는 생물학적 상태와 진화적 주기에 깊이 뿌리내리고 있음
    체스 실력은 비교 가능하지만, 인간의 감정과 추론은 논리보다 생물학에 가까움

    • 현재 AI의 가장 큰 한계는 욕망(desire) 이 없다는 점임
      배고픔, 죽음, 감정이 없으니 스스로 탐구하거나 개선하려는 내적 동기가 없음
      인간은 내부에서 성장하지만, AI는 외부에서 훈련됨
      그래서 LLM이 인간적 의미의 AGI에 도달하긴 어렵다고 생각함
    • 그러나 의식이나 감정이 꼭 생물학적 기반을 필요로 한다는 근거는 없음
    • 지금의 AI 열풍은 “지능은 단순히 복잡성과 에너지 투입으로 시뮬레이션 가능하다”는 믿음 위에 서 있음
      하지만 나는 그 가정에 회의적임
      결국 ‘지능’의 정의가 AI가 보여주는 결과에 맞춰 재정의될 가능성이 큼
    • 사실 우리는 지능이나 의식이 무엇인지조차 모름
      종교적 질문에 가깝고, 단지 기술적으로 묘사할 뿐임
      LLM은 그 묘사에 근접할 수 있지만, 진짜 지능은 아닐 수 있음
    • 외계 생명체가 탄소가 아닌 규소 기반 생물이라면, 그들의 지능을 부정할 수 있을까?
      지능은 인간 생물학에 묶여 있지 않다고 생각함
  • 이 논문은 마치 SAT 점수와 벤처캐피털 평가를 섞은 듯한 느낌을 줌

  • AGI를 “인간의 모든 인지 능력을 가진 AI”로 정의하는 건 이미 모호함
    논문은 “AGI의 구체적 정의를 제시한다”고 하지만, 여전히 ‘잘 교육받은 성인’ 이라는 불명확한 기준에 의존함
    AI는 이미 여러 분야에서 성인 수준을 넘었음
    논문이 말하는 “들쭉날쭉한(jagged) 인지 프로필”은 사실 모든 지능이 환경에 따라 그렇기 마련임
    그래서 이건 AGI 정의가 아니라, 단순히 AI의 인지적 불균형을 측정하는 틀에 불과함

    • “잘 교육받은 성인”을 기준으로 하면, 역사상 대부분의 인간은 AGI가 아닌 셈이라 이상함
    • 인간의 다양한 지능 지표들이 높은 상관관계를 가진다는 연구도 있음
      놀라운 건 AI가 인간보다 훨씬 불균형적(jagged) 이라는 점임
  • AI가 기술적으로 흥미롭긴 하지만, “AGI란 무엇인가”라는 논의는 너무 지루함
    마치 양자컴퓨팅 얘기할 때마다 ‘큐비트란 무엇인가’ 부터 설명해야 하는 느낌임
    기술은 목적지가 아니라 지속적 개선의 과정
    결국 모든 기술은 낡고, 향수로만 남게 됨
    AI도 계속 발전하겠지만, 우리는 그 속도에 익숙해지는 끓는 물 속의 개구리일 뿐임

    • 하지만 기술이 스스로 개선을 이어가는 단계에 도달한다면, 그건 분명 주목할 만한 전환점일 것임
      목적지는 아니더라도, 논의할 가치는 충분함
    • 이런 논의는 철학 입문 수준의 반복처럼 느껴짐
      의식과 사고의 본질은 수백 년 전부터 논의된 주제임
      새로운 통찰처럼 보이지만, 사실 오래된 철학의 재탕임
  • 이 논문은 인간용 지능 측정 도구를 기계에 그대로 적용하려는 점이 근본적으로 잘못됨
    예를 들어 ‘dual N-back 테스트’는 인간의 작업 기억 변이를 측정하기 위한 것이지만, 트랜스포머 모델에는 의미가 없음
    인간 지능 검사는 인간의 실세계 성과와 상관관계를 전제로 설계된 것임
    따라서 AI가 IQ 테스트를 잘 본다고 해서, 현실 세계에서 고지능 인간처럼 행동할 수 있다는 뜻은 아님

  • 우리는 이미 SAGI(Stupid Artificial General Intelligence) 를 가지고 있음
    인간보다 빠르거나 뛰어난 부분도 있지만, 동시에 어리석은 부분도 있음
    마치 비행기가 새처럼 날지 않지만, 그래도 날 수 있는 것과 같음

    • 낮은 진입장벽, 높은 잠재력(low floor/high ceiling)” 개념이 더 유용하다고 생각함
      관련 논의는 When Will AI Transform the Economy?에서 다뤄짐
    • ‘Naive Artificial General Intelligence’라는 표현도 괜찮다고 봄
      수학자들이 쓰는 ‘Naive Set Theory’처럼 단순하지만 실용적인 개념임
    • 좋은 비유라고 생각함
  • 흥미로운 점은, HN에서는 대부분 현재의 AI를 ‘가짜’나 ‘장난감’ 으로 치부하지만
    세상에서 가장 성공한 사람들은 여기에 수조 달러를 투자하고 있다는 것임
    누가 옳은지는 모르겠지만, 이 극단적 대비가 흥미로움

    • 성공이란 결국 타인의 돈을 얼마나 잘 끌어모으는가의 척도일 뿐임
      가치 없는 것을 만들어도 성공할 수 있음
  • GPT-5가 58% 점수를 받았다는 건 너무 높게 느껴짐
    실제로는 AGI에 그렇게 근접하지 않음
    게다가 Gary Marcus와 Yoshua Bengio가 같은 논문에 있다는 게 이상함
    요즘은 저자 목록 자체가 퍼포먼스처럼 보임

    • AI 개발에서 처음 90%는 쉽지만, 마지막 1%가 나머지 99%보다 어렵다는 말이 떠오름