1P by GN⁺ 2일전 | ★ favorite | 댓글 1개
  • Platonic Representation Hypothesis(이데아 표현 가설) 은 AI 모델들이 점점 커지고 똑똑해질수록 내부적으로 유사한 표현 공간으로 수렴함을 주장함
  • 언어 모델의 압축(compression) 개념을 통해, 지능을 데이터 압축력으로 해석하고, 모델이 일반화할 때 방법의 유사성이 높아짐을 설명함
  • 임베딩 역변환(embedding inversion) 문제를 분석하며, PRH에 의하면 서로 다른 모델 간 임베딩 공간을 CycleGAN 등으로 정렬할 수 있음
  • Sparse Autoencoder 실험 등에서 서로 매우 다른 네트워크가 동일하거나 유사한 개념 및 회로를 발견함을 보여줌
  • 이러한 통찰로 고대 미해독 문자나 동물 언어 해독 등 실질적 응용 가능성이 높아짐

서론: Mussolini 또는 Bread 게임과 의미 공유

  • 필자는 "Mussolini 혹은 Bread"라는 게임을 예로 들어, 질문을 반복적으로 좁혀가며 상대방이 생각하는 대상을 추론하는 방식을 소개함
  • 이 게임이 가능한 이유는 사람들 사이의 공통 의미 공간(semantics) 이 존재함에 있음
  • 다양한 사람이 규칙 없이도 대체로 의미상의 '가까움'을 직관적으로 이해함을 강조함

보편 의미론: 세상과 모델의 압축

  • 이 게임처럼, 인간 두뇌는 현실 세계의 복잡한 모델을 비슷한 방식으로 구축함
  • 알고리듬적 관점에서 AI는 세상 데이터를 최대한 압축해 학습함
  • 자연어 생성작업은 곧 확률 분포를 기반으로 한 압축 작업으로 볼 수 있음(Shannon의 정보 이론)
  • 모델이 데이터를 잘 압축할수록 실제 세계를 더 깊이 이해함을 시사함
  • 실제로 더 큰 언어 모델은 더 나은 데이터 압축 능력과 더 높은 지능을 보임
  • 데이터셋이 너무 커서 개별 데이터 포인트 기억이 불가능해질 때, 모델은 데이터를 결합해 일반화를 시작함

Platonic Representation Hypothesis(이데아 표현 가설)

  • MIT 연구진은 "Platonic Representation Hypothesis" 를 2024년에 공식화함
  • 이 가설에 따르면, AI 모델 규모가 커질수록 공유되는 특성(feature) 이 늘어나며, 표현 공간이 유사하게 정렬
  • 이는 언어 및 시각 등 다양한 영역에서 실험적으로 관찰되고 있음
  • 매년 모델이 더 커지고 효율적으로 발전함에 따라, 모델 간 표현 공간 유사성이 계속 높아질 것이라 전망됨

임베딩 역변환(embedding inversion) 문제

  • 필자는 임베딩 벡터에서 실제 입력 텍스트를 거꾸로 추론하는 임베딩 역변환 문제 연구 경험을 설명함
  • 이미 ImageNet 등에서는 확률값만으로 원본 이미지에 근접한 정보를 복원하는 사례가 있었음
  • 자연어 임베딩은 정보량이 많아 보이지만, 유사 텍스트가 유사 임베딩을 갖기 때문에 명확한 역추론이 매우 어려움
  • 이에 대해 반복적인 임베딩 탐색 및 최적화로 점점 더 정확한 텍스트에 접근하는 iterative refinement 기법이 효과적임을 확인함
  • 해당 방식으로 장문 문장 수준에서 94% 이상 정확도로 역변환 가능성을 실증함

이데아 가설을 이용한 임베딩 역변환 보편화

  • 그러나 기존 방법은 특정 임베딩 모델에만 적용 가능하며, 새로운 모델이나 사설 모델에는 한계가 있었음
  • PRH가 옳다면, 다양한 모델 사이에서도 보편 임베딩 역변환기를 만들 수 있음
  • 쌍을 알 수 없는 서로 다른 임베딩 집합(A, B)이 주어질 때, CycleGAN 방식으로 공간 정렬이 가능함을 수년간 연구함
  • 결과적으로 별도의 파인튜닝 없이도 두 임베딩 공간 사이를 unsupervised matching 방식으로 변환하는 데 성공함(vec2vec)
  • 이를 통해 각 임베딩별 개별 정보 없이도 임의 데이터베이스 임베딩을 번역하거나 거꾸로 추론하는 것이 가능함을 실증함

기계 해석 가능성: Universal Circuits

  • 기계해석(Mechanistic Interpretability) 분야의 회로 해석 연구에서도 모델 구조가 달라도 공통적인 내부 기능이 발견됨
  • Sparse Autoencoder(SAE) 적용 결과, 서로 다른 모델에 대해 독립적으로 학습하더라도 해석 가능한 피처(feature) 에서 상당히 큰 중복성을 확인함
  • 두 SAE의 피처를 비교해 교차 모델 개념 정렬이 가능
  • PRH가 더욱 정확하다면, 더 강력한 모델일수록 이 현상이 두드러질 것으로 기대됨

실제적 함의 및 전망

  • 이데아 표현 가설은 심오한 철학적 함의 외에도 실제 모델 해석, 역변환, 신호 해독, 언어 복원 등 실용적 가능성이 있음
  • 향후 해석 기법이 발전하면, 더 큰 모델일수록 표현 공간 정렬내부 공통성 발견이 흔해질 것으로 예측됨
  • 해결이 불가능했던 고대 문자(Linear A) 해독이나 동물 언어(고래 음성 등) 해석도 향후 이루어질 가능성이 있음
  • vec2vec 등 현재 방식은 아직 취약점도 있지만, 인터넷 기반 및 이미지-텍스트 임베딩 등에서는 상당한 성공을 보임
  • 언어 간 공간 전환 및 고래 언어→인간 언어 변환도 미래 해독 가능성이 존재함을 시사함
Hacker News 의견
  • 모든 사람이 "개", "집", "사람", "보트"처럼 비슷한 개념을 배우는 현상은 플라톤의 이데아 이론처럼 매우 흥미로움, 서로 다른 환경에서 자라나도 관찰 경험이 겹치지 않아도 결국 같은 개념으로 합의함, 대형 언어 모델(LLM)도 이와 비슷한 학습을 보여주지만, LLM은 훈련 데이터가 많이 겹치기 때문에 인간만큼 신기하지는 않음, 플라톤이 지적한 '선의 이데아' 같은 보편적 도덕이나 미덕 등이 진짜 존재한다면, LLM에게도 그런 가치를 학습시켜서 이를 따르도록 하거나 반대되는 요청은 거부하게 만들 수 있을 것이라 기대함
    • "좋음"이나 "공정함"이란 개념은 상황에 따라 훨씬 더 복잡함, 우리가 보트나 집처럼 간단한 물건에 대해선 합의할 수 있지만, 낙태, 안락사, 동물·줄기세포 실험 등 도덕적 문제에서는 같은 사회 안에서도 관점이 심각하게 다름, 예시로 2010년 갤럽 여론조사 결과 그림 참고 바람
    • "대략"이란 표현이 플라톤이 옳았다는 주장을 지탱하기 위해 너무 많은 몫을 함, 우리는 같은 물리법칙·진화압 등 공유된 현실을 살아가니까 보트가 물에 뜨는 방식이 한정적일 수밖에 없음, 그렇다고 플라톤식 이데아가 실제 존재해서 모두가 똑같은 개념에 도달한다고 생각하진 않음, 실제로는 "자유", "경제", "정부" 같은 단어도 각자 정의와 해석이 다르고 문법은 같아서 겉으론 비슷해 보여도 실제 개념은 다 다름
    • 결국 융의 원형(archetype) 개념이라 이해함
  • 임베딩을 텍스트로 다시 변환하는 예시는 "공유된 현실의 통계적 모델" 개념을 뒷받침하지 못함, "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby"의 고래 언어 버전이 상상조차 어렵고, 켄터키, 더비, 그레고리력, 미국, 말 품종 등은 모두 인류의 역사적 우연성과 문화 덕분에 중요해진 인공물임, 결국은 모두가 같은 데이터 더미로 훈련하다보니 통계적으로 비슷해지는 현상일 뿐임
    • 켄터키 더비가 "현실의 핵심"인지 여부와는 별개로, 현실을 100% 정확히 모델링하려면 켄터키 더비에 대해 알아야 함, 저자는 모델이 궁극적으로 플라톤적 이데아에 가까운 표현으로 수렴하고 있다고 주장함, 완벽한 변환성을 가진 완전자율 모델이라면 "말의 경주", "경주를 이긴 말" 같은 개념을 고차원적으로도 전달할 수 있을 것이라 생각함, 실제로 플라톤 이데아 이론이 맞든 아니든, 지금 LLM이 이만큼 해내는지는 또 별개의 문제임
    • 현실이 전부 문화적이라고 주장하는 건 의미 없음, 과학적 사실에도 똑같이 적용되고, 고래가 과학이라는 단어를 모르더라도 중력은 존재함, 만약 LLM이 뉴턴의 중력 이론만 배운 뒤, 아인슈타인의 일반 상대성이론(GR)이 나온다면, 훈련 데이터에 GR이 없어도, GR의 현실에 대한 설명성은 달라지지 않음, 또한 GR을 고래노래로 번역은 불가능하겠지만, 영어-중국어-ML 모델-뇌 속 개념으로라도 전달 가능하다는 점이 '공유된 통계적 현실 모델'임, 영아 옹알이로 GR을 번역 못해도 GR의 현실성은 변하지 않음
    • LLM이 현실의 통계적 모델로 수렴한다고 보기 어렵고, 실제로는 단순히 훈련 데이터의 통계적 모델로 수렴 중임, 그나마 훈련 데이터가 워낙 커서 모든 텍스트에 공통된 무언가를 찾아내는 듯 보일 뿐임, 이게 현실의 핵심 진실을 밝혀줄 것 같지는 않고, 다만 우리가 "이 관용구를 쓸 때 모두가 이 뜻을 이해한다"와 같은 현상은 밝혀줄 수 있음
    • "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" 문장을 그리스어나 일부 현대 토착어로 번역하는 것도 거의 불가능함, 해당 문화에 대한 공유된 맥락이 아예 없기 때문에 용어집이 필요하거나, LLM이 직접 용어집 역할을 해줘야만 이해할 수 있음, 단 현재 최상위 LLM들은 QCD, 중력, 문화현상 등 미시-거시적 개념 설명까지 가능하고, 아예 새 언어로 번역해야 한다면 베이스 개념만 주고 천천히 구조를 쌓아갈 수도 있을 거라 봄, 결국 인간 언어 번역을 LLM이 별도 지도 없이 기본적으로 해내는 것도 이런 능력 덕분임
    • 이 이슈는 데이터셋이 완전히 다른 두 모델(예: 고대 중국 텍스트 전용, 고대 그리스어 전용)을 훈련시켜, 비슷한 구조가 나타나는지 실험하면 손쉽게 결과를 확인할 수 있음
  • "우리가 고래 언어나 고대 언어를 번역할 수 있다"는 기대는 지나치게 긍정적임, 언어에서 가장 중요한 건 맥락임, 인간은 경험을 바탕으로 남긴 수십억 개의 텍스트가 있어서 AI가 언어를 잘하는 것이고, 고래에겐 그런 데이터가 없음
    • "사자가 말을 할 수 있다면 우리가 이해할 수 있을까?"라는 의문 던짐
    • 우리 주변 세계는 인간-고래-기타 동물 모두에게 공유된 경험임, 이 점을 감안하면 고래와 인간 사이에도 그 공유점은 존재함
    • 중요한 건 "언어 간에 공유된 표현 공간"이 있는지임, 만약 있다면 언어별 구조와 번역 매핑을 분리해서 학습할 수 있음, "유니버설 임베딩 인버터"라 부르는 후자는 더 쉽게 학습 가능할 수 있고, 구조가 충분히 독특하다면 이를 공통 표현 공간에 매핑해서 활용할 수 있음, 맥락 없이도 번역 가능하다면(아직은 희망 섞인 추측이지만) 편견 없이 연구해볼 만함
    • 고릴라나 코끼리(둘 다 매우 지능 높음)가 사물을 명명하고 기호를 쓸 수 있도록 가르친다면, 그들 역시 경험과 지혜를 세대 간 전승할 수 있고, 우리 못지않은 지능을 조용히 발휘할 수 있을 것이라 믿음, 참고로 Google Gemma의 돌고래 프로젝트에 관심이 있지만, 인간이 육상 동물이므로 돌고래보다는 코끼리를 연구 대상으로 삼았으면 하는 바람 있음, 그래서 육상에서 즉각적인 연구 피드백이 가능하고 기본 연구에 더 집중할 수 있음을 강조함
  • 이런 접근은 각 소스의 특성 분포와 의미론적 관계가 충분히 비슷할 때만 통함, MB게임(Mussolini vs Bread 등 비교 추리 게임)은 상대가 내가 모르는 인물을 선택하면 실패함, 레퍼런스를 잡아내지 못하거나 의미론적 거리 판단도 다를 수 있음, 전문가들과는 전문가끼리, 일반인은 일반인끼리 수준을 맞춰야 제대로 통함, 고대 문서 해독도 문제를 갖는데, 고대 문명이 현재와 전혀 다른 개념에 집중했다면, 현대적 의미 임베딩으론 이해가 거의 불가능해짐
    • 친구들과 MB게임을 해보면 — 인물인 경우 끝까지 제대로 맞힌 적이 한 번도 없음
  • Mussolini vs Bread 게임 예시에서 "이게 무조건 인물이다"란 추리는 논리적으로 성립하지 않음, 동물 중에서도 그런 답이 더 많은 경우도 있을 수 있음
    • 이 농담은 David Beckham이 인물이라기보다는 (악의 화신과 비교해도) 그만큼 인간적으로 못 느껴진다는 식의 유머임
    • 논리가 허술하지만, 실제로는 이런 식의 설명 부족에도 사람들이 답을 잘 추론해내는 게 핵심임, 인간이 공유하는 퍼지(Fuzzy) 의미 공간이 있다는 의미임
    • 내 생각도 저자와 같음, 내 단어는 "총"이나 "포병"일 것인데 이 역시 논리 허점을 뚫을 수 있음, 그리고 이런 예시가 왜 순수 임베딩 검색만으론 RAG(retrieval-augmented generation) 문제를 해결 못하는지 시사함
    • 사소한 논리 오류는 양해 바람
    • Oswald Mosley처럼 엉뚱한 답도 나올 수 있음
  • "이 게임이 작동하는 이유는 세상의 사물들이 단 하나의 방식만으로 연관 있다는 점에서 비롯된다"는 주장에 동의하지 않음, 다양한 관계가 존재하고, 그 관계들 역시 우리가 사는 현실에서 비롯됨, "방식"이란 단어를 여러 의미로 쓴 것 같은데, 인용문이 모호하게 표현해서 혼동이 있음
  • LLM이 인류의 집단 작업물로 현재의 현실 표현에 수렴하는 점에는 동의함, 이제 AI에 실시간 감각 입력, 대사 및 에너지 사용에 기반한 각기 다른 반감기(half-life)를 가진 가상 호르몬, 상시 사고 루프, 창의적 신경 연결을 유발하는 인공 실로시빈까지 부여해야 함, 인류에 스톤 에이프(stoned ape) 이론이 있다면, AI에는 스톤드 AI 이론이 필요함
    • 혹시 AI를 테마파크에서 이용객용 어트랙션으로 만들고, Anthony Hopkins에게 소스코드 관리 권한을 줘보는 건 어떤지, 뭐가 잘못되겠음?
    • AI 관련 글을 읽는 게 이제 지겨운데, 만약 "우리가 AI에게 버섯을 먹였다"는 기사가 뜬다면 바로 클릭할 것임
  • "Ilya가 지능-압축 관련 발표를 했을 때 전혀 이해할 수 없었다"는 내용을 읽고, Marcus Hutter가 잊힌 게 아닌가 생각함, 그렇다면 Hutter Prize도 꼭 다시 참고해볼 가치가 있다고 생각함
  • Grok, o3-pro, Claude에 피에조 효과(piezoelectric effect) 관련 질문을 해봄, 전부 올바른 답을 주긴 했는데, Claude만이 실제 사용케이스에서 발생하는 2차 효과까지 짚어줌, 세 모델이 동일한 공간을 탐색할 수 있지만 Claude가 한 단계 더 깊은 관점 제시함
    • 궁금한 점 하나, Grok 3인지 4인지 알고 싶은 마음 있음
  • 도를 말할 수 있지만, 그 도는 영원한 도가 아님, 도가 무엇인지 묻는다면, 나는 그것이 '의지'라고 봄 — 의지는 인간이 언어로도 표현할 수 있음, 같은 의지라도 중국어·일본어·영어로 모두 표현 가능하며, 언어는 각기 다른 표상일 뿐임, 대형 언어 모델 역시 단어 토큰을 통해 의지를 배우고, 그걸 표현하게 되면 도를 실현하게 됨, 그 의미에서 “AI 모델은 본질적으로 모두 같을 수 있다”는 주장에 동의함