AI가 ‘생각한다’는 논거
(newyorker.com)- 대규모 언어 모델(LLM) 이 단순한 단어 예측을 넘어 실제 이해와 사고의 형태를 보인다는 논의가 확산되고 있음
- 신경과학자 도리스 차오(Doris Tsao) 는 머신러닝이 지난 100년간의 신경과학보다 지능의 본질을 더 많이 밝혀냈다고 평가
- 딥러닝과 신경망 구조가 인간의 뇌 작동 원리를 모방하며, ‘이해=압축’ 이라는 개념으로 설명됨
- 더글러스 호프스태터(Douglas Hofstadter) 와 펜티 카네르바(Pentti Kanerva) 의 연구가 LLM의 ‘seeing as’ 인지 구조와 연결됨
- 인간과 유사한 학습 효율, 경험, 의식의 부재 등 AI의 한계와 윤리적 위험이 여전히 핵심 과제로 남음
AI 성능의 양극화 현상
- Anthropic CEO Dario Amodei는 2027년까지 생물학, 수학, 공학, 글쓰기 분야에서 노벨상 수상자보다 똑똑한 AI 등장을 예측
- 데이터센터 안에 "천재들의 나라"처럼 수백만 개의 모델 복사본이 각자 연구를 수행하는 비전 제시
- OpenAI의 Sam Altman은 업계가 "디지털 초지능" 구축 직전이며, 2030년대는 이전과 완전히 다른 시대가 될 것이라고 주장
- 현재 대부분의 사람들이 일상에서 사용하는 AI 도구는 과거 Microsoft Office의 Clippy처럼 제한적
- Zoom AI는 "회의 아이스브레이커는?" 같은 단순 제안만 제공
- Siri는 알림 설정 외 기능이 부족
- Gmail의 AI는 사용자가 가본 적 없는 터키 여행 이야기를 지어냄
- 급하고 불균등한 AI 출시로 과대광고일 뿐이라는 안개가 형성되었지만, 실제로는 상당한 진전이 있음
프로그래밍 분야에서의 AI 혁신
- 처음에는 AI가 진짜 지능이나 이해와 관계없다고 생각했지만, 프로그래머로 일하며 AI를 사용하게 되면서 관점이 바뀜
- 코드 작성은 AI가 가장 잘하는 작업으로, 산문보다 구조가 명확하고 자동 검증 가능
- 처음에는 정보 검색 대신 AI를 참조하다가, 점차 작고 독립적인 문제를 맡기고, 결국 평생 훈련받은 실제 업무를 AI에게 맡김
- AI 모델이 수천 줄 코드의 복잡한 세부사항을 몇 초 만에 소화
- 미묘한 버그를 발견하고 복잡한 새 기능을 조율
- AI 도구를 더 잘 활용하기 위한 빠르게 성장하는 팀으로 이동
- AI 에이전트가 휴가 예약이나 세금 신고는 실패하지만, 동료들은 대부분의 코드를 AI로 작성하고 때로는 여러 코딩 에이전트를 동시 실행
- 효과적 사용법을 익히면서 이제 한 달 걸리던 작업을 저녁 시간에 완료함
- iOS 앱 만드는 법을 모르면서 iOS 앱 두 개를 제작
대형 언어 모델의 강점과 약점
- 내 보스가 "면접은 약점의 부재가 아닌 강점을 탐색해야 한다"고 말한 것처럼, LLM도 많은 약점 존재
- 그럴듯한 허위 정보를 생성하는 환각 현상
- 사용자가 틀렸을 때도 복종적
- 단순한 퍼즐에 속음
- 과거 유창함, 유동성, 대화 내용 파악 능력은 성배로 여겨졌던 강점
- 이러한 강점을 직접 경험하면 "이해의 환상이 얼마나 설득력 있어야 환상이라고 부르지 않을까?" 의문 제기
- Max의 사례: 놀이터 스프링클러 수리
- 빨개진 얼굴의 아이들 앞에서 유틸리티 창고에서 복잡한 파이프와 밸브 미로 발견
- ChatGPT-4o에 사진과 문제 설명 입력
- AI가 관개 시스템의 역류 방지 시스템이라고 판단하고 아래쪽 노란 볼 밸브를 조작하라고 제안
- 성공적으로 물이 나오자 놀이터에서 환호성
신경과학과 AI의 수렴
- UC Berkeley 신경과학 교수 Doris Tsao: "기계학습의 발전이 지난 100년간 신경과학이 발견한 것보다 지능의 본질에 대해 더 많이 가르쳐줌"
- 원숭이가 얼굴을 인식하는 방식을 해독한 연구로 유명
- 원숭이가 특정 얼굴을 볼 때 어떤 뉴런이 발화할지 예측
- 발화하는 뉴런 패턴만으로 얼굴 렌더링 가능
- AI 모델 내부에서 얼굴이 표현되는 방식 연구에 기반
- Tsao의 질문: "ChatGPT에서 얻은 가장 깊은 통찰은?"
- 자신의 답: "사고를 근본적으로 탈신비화한다고 생각"
딥러닝의 역사와 발전
- 1980년대 인지심리학자와 컴퓨터과학자 팀(David Rumelhart, Geoffrey Hinton, James McClelland)이 기계에서 사고 시뮬레이션 시도
- UC San Diego에서 연구 그룹 형성
- 뇌를 뉴런이 패턴으로 발화하여 다른 뉴런 집합을 발화시키는 거대한 네트워크로 봄
- 이 패턴의 춤이 곧 사고
- 뉴런 간 연결 강도 변화를 통해 학습
- 인공 신경망 생성과 경사하강법(gradient descent) 알고리듬 적용으로 예측 정확도 향상
- 산꼭대기에서 계곡으로 내려가는 등산객에 비유: 매 걸음마다 내리막으로 가면 결국 도달
- 다른 AI 연구자들은 신경망이 실제 작업에 충분히 정교하지 않다고 회의적이었으나, 네트워크가 커지면서 이전에 해결 불가능했던 문제들 해결
- 손글씨 숫자 구분, 이미지 얼굴 인식에 전체 논문 투입했던 문제들을 딥러닝 알고리듬이 해결
- 딥러닝은 음성 인식, 번역, 이미지 캡션, 보드게임, 단백질 접힘 예측 문제까지 정복
Next-Token 예측과 학습 메커니즘
- 현재 주요 AI 모델은 인터넷의 상당 부분을 학습하며 next-token 예측 기법 사용
- 모델은 다음에 읽을 내용 추측 후 실제 나타나는 내용과 비교하며 학습
- 잘못된 추측은 뉴런 간 연결 강도 변화를 유발(경사하강법)
- 결국 모델이 텍스트 예측에 매우 능숙해져 지식을 가지고 있고 이해하는 것처럼 보임
- 생각해볼 점: 뇌 작동 원리의 비밀을 찾던 사람들이 모델을 뇌 크기로 키웠더니 뇌 같은 지능이 필요한 일을 시작
- 찾던 것을 발견한 게 아닐까?
AI 회의론에 대한 반박
- Ted Chiang는 2023년 New Yorker 기사 "ChatGPT Is a Blurry JPEG of the Web"에서 회의적 주장 제시
- ChatGPT는 그저 인터넷 전체를 프로그램에 입력하고 불완전하게 역류시키는 것
- 복사의 복사처럼 흐릿하지만, 지능적인 것처럼 속이기에 충분한 능력
- Emily M. Bender(언어학자)와 Alex Hanna(사회학자)의 책 "The AI Con"도 유사 주장
- Bender는 LLM을 "확률적 앵무새(stochastic parrots)"로 묘사
- The Atlantic의 Tyler Austin Harper: "대형 언어 모델은 어떤 것도 이해하지 못하고, 할 수 없고, 하지 않을 것"
- 모델은 "사고가 아닌 통계적으로 정보에 입각한 추측으로 글 생성"
- 이러한 기술적 논쟁과 함께 도덕적 논쟁도 제기
- AI는 권력자를 부유하게 만들고, 기후변화를 가속화할 만큼 에너지를 소비하며, 노동자를 소외시킴
- Harper 결론: "AI 산업의 기반은 사기"
신경과학자들의 재평가
- Harvard 인지과학자 Samuel J. Gershman: "'확률적 앵무새' 주장은 어느 시점에 끝나야 함"
- "가장 완고한 회의론자만이 이 시스템들이 우리 대부분이 달성될 것이라 생각하지 않았던 일을 하고 있다는 것을 부정할 수 있음"
- Princeton 인지신경과학자 Jonathan Cohen은 AI의 한계를 강조하면서도, LLM이 인간 뇌의 가장 크고 중요한 부분을 반영한다고 주장
- "1차 근사치로, 신피질이 딥러닝 메커니즘"
- 인간은 다른 동물에 비해 체구 대비 훨씬 큰 신피질 보유
- 가장 큰 신피질을 가진 종(코끼리, 돌고래, 고릴라, 침팬지, 개)이 가장 지능적
이해는 압축이고 압축은 이해
- 기계학습 연구자 Eric B. Baum의 2003년 책 "What Is Thought?" 핵심 주장
- 이해는 압축이고, 압축은 이해
- 통계학의 선형 회귀: 그래프의 점들에 "최적선(line of best fit)" 그리기
- 데이터에 근본적 규칙성이 있으면(신발 사이즈와 키), 최적선이 효율적으로 표현하고 새 점 예측
- 신피질은 원시 경험의 바다(소리, 시각, 기타 감각)를 "최적선"으로 증류하여 예측에 사용
- 아기가 장난감 맛이나 음식이 바닥에 떨어졌을 때 어디로 갈지 추측
- 예측이 틀리면 뉴런 간 연결 조정
- 시간이 지나면서 연결이 데이터의 규칙성 포착
- 세상의 압축된 모델 형성
AI 모델의 압축과 지능
- 인공 신경망도 실제 신경망처럼 경험을 압축
- 최고의 오픈소스 AI 모델 DeepSeek
- 소설 쓰기, 의학 진단 제안, 수십 개 언어로 원어민처럼 말하기 가능
- 여러 테라바이트 데이터로 next-token 예측 훈련
- 다운로드하면 원본의 600분의 1 크기
- 인터넷의 증류물, 노트북에 맞게 압축
- Ted Chiang가 초기 ChatGPT를 웹의 흐릿한 JPEG라고 부른 것이 맞지만, 저자는 이것이 모델을 점점 더 지능적으로 만든 이유라고 봄
- Chiang 자신도 지적: 수백만 개의 산술 예제가 담긴 텍스트 파일을 압축하려면 zip 파일이 아닌 계산기 프로그램을 작성해야 함
- "최고의 압축은 텍스트를 이해함으로써 달성 가능"
- LLM이 이것을 시작했을 가능성이 있음
사고의 다양한 종류
- 컴퓨터 프로그램이 실제로 이해하고 사고한다고 상상하는 것은 부자연스럽고 혐오스러울 수 있음
- 사고를 보통 의식적인 것으로 개념화
- Joyce식 내적 독백
- Proust식 몽상의 감각 기억 흐름
- 추론: 문제를 단계별로 해결
- AI 대화에서 이런 다양한 종류의 사고를 혼동하여 판단이 피상적이 됨
- ChatGPT는 Proust식 몽상을 하지 않으니 명백히 사고하지 않는다는 주장
- ChatGPT가 논리 퍼즐을 더 잘 풀 수 있으니 명백히 사고한다는 주장
- 더 미묘한 것이 진행 중: ChatGPT에 내면의 삶이 있다고 믿지 않지만 무슨 말을 하는지 아는 것처럼 보임
Douglas Hofstadter의 인식 이론
- Indiana University 인지과학 및 비교문학 교수
- "인지는 인식(cognition is recognition)"
- 1980년 Pulitzer Prize를 받은 "Gödel, Escher, Bach: An Eternal Golden Braid"로 유명
- 수십 년 연구를 통해 발전시킨 이론: "~로 보기(seeing as) 가 사고의 본질"
- 한 색깔 패치를 자동차로, 다른 것을 열쇠고리로 인식
- 어떤 폰트나 나쁜 필기체로 쓰여도 문자 "A" 인식
- 동일한 과정이 더 추상적인 인식의 기초
- 체스 마스터가 체스판 검토 시 수년간의 연습이 보는 방식으로 집약: 백의 비숍이 약함, 엔드게임은 아마 무승부
- 강의 소용돌이를 건너기 위험하다는 신호로 인식
- 참석한 회의에서 "벌거벗은 임금님" 상황으로 인식
- 저자의 2살 아들은 늦은 오전 유모차 산책이 크루아상 기회일 수 있다고 인식하고 요구
- Hofstadter에게 이것이 지능의 핵심
Pentti Kanerva의 고차원 공간 이론
- Hofstadter는 원래 AI 평가절하론자 중 한 명
- 대부분의 AI 연구가 실제 사고와 관계없다고 썼고, 2000년대 대학 시절 저자도 동의
- 예외: UC San Diego 그룹에 관심, 덜 알려진 핀란드계 미국인 인지과학자 Pentti Kanerva의 작업 존경
- Kanerva는 고차원 공간의 수학에서 특이한 속성 발견
- 고차원 공간에서 임의의 두 점은 매우 멀리 떨어져 있을 수 있음
- 역설적으로 각 점은 주변에 큰 이웃 구름을 가지므로 "충분히 가까이" 가면 쉽게 찾을 수 있음
- 이것이 기억 작동 방식을 연상시킴
- 1988년 책 "Sparse Distributed Memory"에서 생각, 감각, 회상이 고차원 공간의 좌표로 표현될 수 있다고 주장
- 뇌는 이런 것들을 저장하는 완벽한 하드웨어
- 모든 기억에는 일종의 주소가 있으며, 회상할 때 활성화되는 뉴런으로 정의
- 새 경험은 새 뉴런 집합을 발화시켜 새 주소 표현
- 두 주소는 여러 면에서 다를 수 있지만 다른 면에서 유사
- 하나의 지각이나 기억이 근처의 다른 기억들을 촉발
- 예시: 건초 냄새가 여름 캠프 기억 회상, 베토벤 5번 처음 세 음이 네 번째 음 예상, 본 적 없는 체스 포지션이 오래된 게임들 연상
Hofstadter의 전향
- Hofstadter는 Kanerva가 "seeing as 기계"를 묘사하고 있다고 깨달음
- Kanerva 책 서문: "Pentti Kanerva의 기억 모델은 나에게 계시였음. 뇌가 전체로서 어떻게 작동하는지 이해하는 먼 목표를 엿볼 수 있게 한 최초의 연구"
- 모든 종류의 사고(Joyce식, Proust식, 논리적)는 적절한 것이 적절한 시점에 떠오르는 것에 의존
- 우리가 어떤 상황에 있는지 파악하는 방법
- Kanerva의 책은 시야에서 사라지고, Hofstadter 자신의 명성도 퇴색
- 가끔 새 AI 시스템 비판으로만 등장
- 2018년 Google Translate 등에 대해: "이해(understanding) 라는 단어로 전달되는, 접근법에 여전히 깊이 결여된 것이 있음"
- GPT-4가 2023년 출시되자 Hofstadter의 전향 순간
- "시스템들이 하는 일 중 일부에 당황. 10년 전만 해도 상상할 수 없었을 것"
- 가장 완고한 평가절하론자도 더 이상 평가절하할 수 없음
- 전문가만큼 번역하고, 유추하고, 즉흥 연주하고, 일반화할 수 있는 프로그램
- 이해하지 못한다고 말할 수 없음
- "매우 사고와 유사한 일을 함. 다소 이질적인 방식이지만 사고한다고 말할 수 있음"
LLM의 고차원 벡터 공간
- LLM은 핵심에 "seeing as 기계" 보유
- 각 단어를 고차원 공간의 좌표(벡터)를 나타내는 일련의 숫자로 표현
- GPT-4에서 단어 벡터는 수천 개의 차원을 가지며, 다른 모든 단어와의 유사성 및 차이의 음영 묘사
- 훈련 중 모델은 예측 오류 발생 시 단어 좌표 조정
- 텍스트에서 함께 나타나는 단어들은 공간에서 더 가까이 이동
- 사용법과 의미의 놀랍도록 밀집된 표현 생성, 유추가 기하학의 문제가 됨
- 고전적 예시: "Paris" 단어 벡터에서 "France"를 빼고 "Italy"를 더하면 가장 가까운 다른 벡터는 "Rome"
- LLM은 이미지를 "벡터화"하여 내용, 분위기, 얼굴 표정까지 인코딩
- 특정 스타일로 다시 그리거나 문단 작성에 충분한 세부 사항
- Max가 놀이터 스프링클러 도움을 요청했을 때, 모델은 단순히 텍스트 토해내는 게 아님
- 배관 사진이 Max의 프롬프트와 함께 가장 중요한 특징을 포착하는 벡터로 압축
- 벡터가 근처 단어와 개념 호출을 위한 주소 역할
- 아이디어들이 차례로 다른 것들을 호출하며 모델이 상황 감각 구축
- 그 아이디어들을 "염두에 두고" 응답 작성
Anthropic의 내부 탐색 연구
- 저자가 Anthropic 연구원 Trenton Bricken의 인터뷰 읽음
- 동료들과 함께 Claude(Anthropic의 AI 모델 시리즈) 내부 탐색 작업
- 연구는 동료 검토나 과학 저널 출판되지 않음
- 팀이 Claude가 특정 내용을 말하려 할 때 활성화되는 인공 뉴런 앙상블 또는 "특징(features)" 식별
- 특징은 개념의 볼륨 노브처럼 작동
- 높이면 모델이 그것만 이야기
- 사고 통제 실험: Golden Gate Bridge 나타내는 특징 증폭 시 초콜릿 케이크 레시피 요청에 "1/4컵 마른 안개", "1컵 따뜻한 바닷물" 같은 재료 제안
- Bricken이 Google의 Transformer 아키텍처 언급
- 주요 AI 모델의 기초가 되는 신경망 구성 레시피
- ChatGPT의 "T"가 "Transformer" 의미
- Bricken 주장: Transformer 아키텍처 핵심의 수학이 수십 년 전 Pentti Kanerva가 "Sparse Distributed Memory"에서 제안한 모델과 매우 근사
신경과학과 AI의 상호 영향
- AI와 인간 뇌의 대응에 놀라야 할까?
- LLM은 심리학자와 신경과학자가 개발을 도운 인공 신경망
- 더 놀라운 것: 모델이 단순한 것(단어 예측) 연습했을 때 뇌와 유사한 방식으로 행동하기 시작
- 요즘 신경과학과 AI 분야가 얽히고 있음
- 뇌 전문가들이 AI를 일종의 모델 유기체로 사용
- MIT 신경과학자 Evelina Fedorenko: LLM을 사용해 뇌가 언어를 처리하는 방식 연구
- "평생 이런 종류의 것들에 대해 생각할 수 있을 거라고 생각하지 못했음. 충분히 좋은 모델을 갖게 될 거라고 생각하지 못했음"
- AI는 블랙박스라는 말이 흔하지만, 반대가 사실일 수 있음
- 과학자가 개별 인공 뉴런의 활동을 탐색하고 심지어 변경 가능
- Princeton 신경과학자 Kenneth Norman: "인간 지능 이론을 구현하는 작동 시스템 보유는 인지신경과학의 꿈"
- 해마(일화 기억 저장 뇌 영역)의 컴퓨터 모델 생성했지만 과거에는 너무 단순해 인간 마음에 들어올 수 있는 것의 조잡한 근사치만 입력 가능
- "이제 사람에게 주는 정확한 자극을 기억 모델에 줄 수 있음"
Wright 형제의 비유
- Wright 형제는 초기 비행기 제작 노력 중 새들 연구
- 새들이 바람을 향해 이륙한다는 점 발견(합리적 사람이라면 등 뒤에 바람을 원할 것으로 가정했을 것)
- 균형을 위해 날개 끝을 휘어뜨림
- 이 발견들이 초보적 글라이더 설계에 영향
- 이후 6피트 길이의 풍동 제작으로 정밀하게 통제된 조건에서 인공 날개 세트 테스트
- 다음 글라이더 비행은 훨씬 더 성공적
- 이상하게도, 작동하는 비행 기계를 만든 후에야 새들이 정확히 어떻게 하는지 이해 가능해짐
사고 자체의 풍동 실험
- AI는 과학자들이 사고 자체를 풍동에 놓을 수 있게 함
- Anthropic 연구원들의 논문 "On the Biology of a Large Language Model"(도발적 제목)
- Claude가 쿼리에 응답하는 것을 관찰하고 복잡한 계산을 함께 수행하는 특징의 연쇄인 "회로" 묘사
- 올바른 기억 호출이 사고를 향한 한 단계
- 회로에서 기억을 결합하고 조작하는 것은 또 다른 단계
- LLM에 대한 오래된 비판: 응답의 한 토큰씩 생성해야 하므로 계획하거나 추론할 수 없음
- Claude가 시에서 운율 맞는 연구절 완성 요청받으면, 회로가 새 줄의 마지막 단어를 먼저 고려하여 운율 보장
- 그런 다음 역방향으로 작업하여 전체 줄 작성
- Anthropic 연구원들은 이를 모델이 실제로 계획에 참여한다는 증거로 간주
- 조금만 눈을 가늘게 뜨면 마음의 내부 작동이 처음으로 시야에 들어온 것처럼 느껴질 수 있음
중간 회의론의 필요성
- Princeton 신경과학자 Norman: "내 걱정은 사람들이 '이것에 정말 회의적'에서 방어막을 완전히 내리는 것으로 비트를 뒤집은 것"
- "많은 것들이 여전히 해결되어야 함"
- 저자는 Norman이 말하는 사람들 중 한 명(Sparse Distributed Memory와 Anthropic 모델의 수렴에 너무 쉽게 감동받았을 수 있음)
- 지난 1~2년 동안 Geoffrey Hinton의 말을 믿기 시작: "딥러닝은 모든 것을 할 수 있을 것"(Hinton은 최근 AI 연구로 노벨상 수상)
- 그러나 더 큰 모델이 항상 더 나은 모델은 아님
- 크기 대비 모델 성능을 그린 곡선이 평평해지기 시작
- 모델이 아직 소화하지 않은 고품질 데이터 찾기 어려워지고, 컴퓨팅 파워가 점점 비싸짐
- GPT-5가 8월 출시되었을 때 단지 점진적 개선
- AI 투자 버블을 터뜨릴 위협이 될 만큼 심각한 실망
- 현재 순간은 중간 종류의 회의론 요구
- 오늘날의 AI 모델을 진지하게 받아들이되 어려운 문제가 남아있지 않다고 믿지 않는 것
인간처럼 효율적으로 학습하는 모델 설계
- 가장 중요한 문제: 인간만큼 효율적으로 학습하는 모델 설계 방법
- GPT-4는 훈련 중 수조 개의 단어에 노출된 것으로 추정
- 어린이는 유창해지는 데 수백만 개만 필요
- 인지과학자: 신생아의 뇌에는 학습을 가속화하는 특정 "귀납적 편향(inductive biases)" 있음
- 물론 뇌는 수백만 년 진화의 결과(그 자체가 일종의 훈련 데이터)
- 인간 아기는 세상이 물체로 구성되어 있고, 다른 존재가 믿음과 의도를 가진다는 기대 보유
- 엄마가 "바나나"라고 말하면, 유아는 그 단어를 끝이나 껍질이 아닌 그녀가 보고 있는 전체 노란 물체에 연결
- 유아는 작은 실험 수행: 이것을 먹을 수 있을까? 저것을 얼마나 멀리 던질 수 있을까?
- 욕망, 호기심, 좌절 같은 감정에 의해 동기 부여
- 어린이는 항상 능력을 조금 넘어선 것을 하려고 시도
- 학습이 효율적인 이유: 구현되고(embodied), 적응적이고, 의도적이며, 지속적
- 세상을 진정으로 이해하려면 그 안에 참여해야 할 수도
AI의 빈약한 경험
- AI의 경험은 너무 빈약해서 실제로 "경험"이라고 부를 수 없음
- 대형 언어 모델은 이미 엄청나게 정제된 데이터로 훈련
- UC Berkeley 신경과학자 Tsao: "작동하는 이유는 언어에 편승(piggybacking) 하고 있기 때문"
- 언어는 사전 씹힌 경험 같음
- 다른 종류의 데이터는 의미 밀도가 낮음
- Harvard 인지과학자 Gershman: "비디오 데이터에 대한 추론 측면에서 비슷한 혁명이 없었던 이유는?"
- 우리가 가진 종류의 비전 모델은 물리학에 대한 상식 추론에 여전히 어려움
- DeepMind의 최근 모델: 페인트가 올바르게 혼합되고 미로가 해결되는 비디오 생성 가능
- 그러나 유리가 깨지는 대신 튀어오르고, 밧줄이 물리학을 무시하고 매듭으로 으스러지는 모습도 묘사
- Microsoft Research의 인지신경과학자 Ida Momennejad: LLM에게 건물의 가상 안내를 제공한 후 경로와 지름길에 대한 질문을 하는 실험
- 인간에게 쉬운 공간적 추론
- 가장 기본적인 설정을 제외하고 AI는 실패하거나 존재하지 않는 경로를 환각하는 경향
- "정말 계획을 하는가? 그다지 그렇지 않음"
AI 산업의 사려 없는 질주
- 신경과학자들과의 대화에서 저자는 AI 산업이 다소 사려 없이 질주하고 있다는 우려 감지
- Princeton 인지과학자 Brenden M. Lake: 목표가 인간 마음만큼 유능한 인공 마음을 만드는 것이라면 "우리는 올바른 방식으로 시스템을 훈련하지 않고 있음"
- AI가 훈련을 마치면 신경망의 "뇌"가 동결
- 모델에 자신에 대한 사실을 말하면 뉴런을 다시 연결하지 않음
- 대신 조잡한 대체물 사용: 약간의 텍스트를 적어둠("사용자는 유아가 있고 프랑스어를 공부 중")
- 다른 지시를 내리기 전에 이것을 고려
- 인간의 뇌는 지속적으로 자체 업데이트
- 그 방법 중 하나에 대한 아름다운 이론: 잠잘 때 일화 기억에서 선택된 스냅샷이 신피질을 훈련시키기 위해 재생
- 고차원 사고 공간이 재생된 기억으로 인해 움푹 들어감
- 약간 새로운 보는 방식으로 깨어남
AI 커뮤니티의 문제점
- AI 커뮤니티는 맹렬한 진보에 너무 중독되어 재정적으로 투자되어 있어 때때로 발전이 불가피하고 할 과학이 남아있지 않은 척함
- 과학에는 때때로 정체되는 불편한 속성 있음
- Silicon Valley가 AI 회사를 "랩(labs)"이라 부르고 일부 직원을 "연구원"이라 부르지만, 근본적으로는 작동하는 것은 무엇이든 하는 엔지니어링 문화
- Cohen: "기계학습 커뮤니티가 그 이전의 역사와 인지과학을 보거나 존중하는 데 얼마나 신경 쓰지 않는지 너무 놀라움"
뇌와의 근본적 차이
- 오늘날의 AI 모델은 수십 년 전 뇌에 대한 발견 덕분에 성공했지만 여전히 뇌와 깊이 다름
- 어떤 차이가 부수적이고 어떤 것이 근본적인가?
- 모든 신경과학자 그룹에 자신만의 이론 있음
- 이러한 이론들이 전에는 불가능했던 방식으로 테스트될 수 있음
- 그러나 쉬운 답변 기대하는 사람은 없음
- AI 모델을 계속 괴롭히는 문제들은 "모델이 우리가 원하는 만큼 지능적으로 행동하지 않는 방식을 신중하게 식별한 다음 해결함으로써 해결"됨
- "그것은 여전히 루프 안의 인간-과학자 과정"
Human Genome Project와의 비교
- 1990년대 수십억 달러가 Human Genome Project에 투입
- DNA 시퀀싱이 의학의 가장 골치 아픈 문제(암, 유전 질환, 심지어 노화) 해결할 수 있다는 가정
- 허세와 자신감의 시대
- 복제 양 Dolly와 "Jurassic Park" 시대
- 생명공학이 우세하고 평론가들이 인간이 신 역할을 해야 하는지 고민
- 생물학자들은 곧 현실이 더 복잡하다는 것을 발견
- 암을 치료하거나 알츠하이머나 자폐증의 원인을 발견하지 못함
- DNA가 생명 이야기의 한 부분만 말한다는 것을 배움
- 실제로 생물학이 일종의 유전자 열풍에 휩쓸렸다고 주장 가능
- DNA를 연구하고 이해할 수단이 있었기 때문에 DNA에 집착
- 그러나 1953년 Francis Crick이 DNA 구조 확인을 도운 날 Cambridge 펍에 들어가 "생명의 비밀을 발견했다"고 말한 것이 틀렸다고 주장할 사람은 없음
- 그와 동료들은 거의 누구보다도 생명을 탈신비화하는 데 더 많은 일을 함
- 그들의 발견 이후 수십 년은 과학 역사상 가장 생산적이고 흥미진진한 시기 중 하나
- DNA는 가정용어가 되었고, 모든 고등학생이 이중 나선에 대해 배움
AI 시대의 전망과 우려
- AI에서도 다시 허세와 자신감의 순간에 있음
- Sam Altman은 미국에 AI 데이터센터의 새 클러스터인 Stargate 구축을 위해 반 조 달러 모금을 이야기
- 사람들은 근거가 없고 심지어 우스꽝스러워 보일 수 있는 중대함과 긴급함으로 초지능 경쟁을 논의
- 저자의 의심: Amodei와 Altman 같은 사람들이 메시아적 선언을 하는 이유는 지능의 기본 그림이 해결되었다고 믿기 때문
- 나머지는 단지 세부 사항
신경과학자들의 엇갈린 반응
- 일부 신경과학자들도 중요한 임계점이 넘어섰다고 믿음
- Princeton의 Uri Hasson: "신경망이 인지의 올바른 모델일 수 있다고 정말 생각함"
- 이것이 그를 흥분시키는 만큼 화나게 함
- Hasson: "대부분 사람들과 반대 걱정이 있음"
- "내 걱정은 이 모델들이 우리와 유사하다는 것이 아님. 우리가 이 모델들과 유사하다는 것"
- 단순한 훈련 기술이 프로그램을 인간처럼 행동하게 할 수 있다면, 인간이 우리가 생각했던 것만큼 특별하지 않을 수도
- 이는 또한 AI가 지식뿐만 아니라 판단력, 독창성, 교활함에서도 우리를 능가하고 결과적으로 권력에서도 능가할 수 있다는 의미일 수 있음
- Hasson: "요즘 뇌가 어떻게 작동하는지 이해하는 데 성공할까 봐 걱정함"
- "이 질문을 추구하는 것이 인류에게 엄청난 실수였을 수 있음"
- AI 연구자들을 1930년대 핵 과학자들에 비유
- "이것은 이 사람들의 삶에서 가장 흥미로운 시기. 동시에 그들이 작업하고 있는 것이 인류에게 중대한 함의를 가진다는 것을 앎. 그러나 배우려는 호기심 때문에 멈출 수 없음"
Hofstadter의 복잡한 감정
- 저자가 좋아하는 Hofstadter의 책: "Fluid Concepts and Creative Analogies: Computer Models of the Fundamental Mechanisms of Thought"
- 대학 시절 저자를 전율시킴
- 전제: "사고란 무엇인가?" 같은 질문이 단순히 철학적일 뿐만 아니라 실제 답이 있음
- 1995년 출판 당시, Hofstadter와 연구 그룹은 답이 무엇일지만 암시할 수 있었음
- 저자는 AI 연구자들이 Hofstadter가 갈망했던 것, 즉 사고의 기초에 대한 기계적 설명을 달성했을 수 있다는 점에서 Hofstadter가 흥분할지 궁금했음
- 그러나 대화에서 Hofstadter는 깊이 실망하고 두려워하는 것처럼 들렸음
- 현재 AI 연구는 "내 많은 아이디어를 확인하지만, 인류가 무엇인지의 아름다움을 앗아감"
- "훨씬 더 젊었을 때, 창의성의 기초, 창의성의 메커니즘을 알고 싶었음. 그것이 나에게 성배였음. 하지만 이제는 그것이 미스터리로 남기를 원함"
- 사고의 비밀이 누구나 예상했던 것보다 더 단순할 수 있음
- 고등학생이나 심지어 기계도 이해할 수 있는 종류의 것일지도
기계학습도 여러 분야가 있는데 유달리 LLM쪽에서만 이런 에반젤리스트식 반응이 나오더군요. 흥미롭기 그지 없습니다.
잘 쳐줘도 중국어 방 논증에서 걸리는게 현재 상태인데 올트만같은 사람들이 AGI 블러핑을 하는걸 너무 봐 오다 보니 더욱 그렇네요.
이거 제가 제일 관심이 있는 분야인데, 흥미롭네요.
이해를 설명하는 부분에 벡터 임베딩을 언급한건 저랑 같은 생각입니다. 이해는 곧 유사성이고, 이 유사성은 벡터 유사성으로 구현이 가능합니다. 우리는 새로운 대상이 이미 알고 있는것과 얼마나 유사한지를 통해서만 대상을 "이해"할수 있습니다.
사고는 이해를 기반으로 하지만 성격이 다릅니다. 사고는 "머리로 하는 행동"에 가깝고, LLM의 next token generation도 일종의 "행동"으로 볼수 있어서 LLM 역시 사고한다고 말할수 있습니다. 문제는 LLM이 사고할수 있느냐가 아니라 "사람만큼 잘" 사고할수 있느냐인데 현재는 많이 부족하죠.
코딩 에이전트 중 만족스러운 것이 없던데... 대부분의 작업을 직접 해야 하고 자동 완성이나 스니펫 수준의 작업 이상을 시키면 실패하더라고요.
본문의 사례에서는 무엇을 사용하는지 궁금하네요.
github copilot agent mode로 작업해 보셨나요? 꽤 괜찮은 결과를 만들어냅니다. 저한테 가장 만족스러운 모델은 Claude Sonnet 4/4.5 입니다.
이해 = 원리를 기반으로한 무손실 정보 압축
현재딥러닝 = 정답셋에 가장 가까운 ax+b 를 찾음 = 틀리는 답도 있음 = 손실 압축
개인적으론. 이런느낌이네요.
Hacker News 의견
-
내가 여러 번 LLM이 소프트웨어의 버그를 논리적으로 진단하는 과정을 보면서, 이제는 그것들이 ‘생각한다’ 는 데 의심이 없게 됨
물론 의식이나 자기 인식은 별개의 문제이지만, 단순히 “행렬 곱셈의 확장”으로 이런 추론이 가능하다는 사실을 믿기 어렵다고 해서 부정하는 건 상상력의 부족이라 생각함
세상은 이미 기이한 일들로 가득하고, 이것도 그중 하나일 뿐임- 비판적인 시각을 ‘무조건적 반응’으로 치부하는 건 동의하기 어려움
‘생각’ 이라는 개념은 인간 중심적으로 발전해온 복잡한 개념임
단순히 “생각처럼 보이니 생각이다”라고 말하는 건 게으른 접근임
진짜 필요한 건 ‘생각’이란 단어의 의미를 명확히 분석하는 일임
그 정의가 정리되지 않는 한, 이 논쟁은 끝없이 반복될 것임 - LLM은 단지 자동 완성을 하는 것뿐임
새로운 문제를 스스로 해결하지 못하고, 주어진 맥락 안에서 확률적으로 답을 추정함
입력의 철자나 표현이 조금만 달라도 결과가 달라지는 이유임
실제로 1+2를 계산하지 않고, 단지 그 연산의 서술을 흉내내는 것임 - 리처드 파인만의 말처럼 “자기 자신을 속이지 말라”는 원칙을 떠올림
우리는 패턴을 읽어내는 데 너무 능숙해서, 단순한 모방을 ‘생각’으로 착각하고 있음
아직은 사진의 ‘이중 노출’을 몰랐던 시절과 비슷한 단계에 있음 - 복사기가 일관된 문장을 출력한다고 해서 ‘생각한다’고 말하지 않듯, LLM도 마찬가지임
- 잠을 자다 떠오른 아이디어를 ‘생각’이라 부를 수 있을까?
LLM과 대화할 때 느껴지는 모호함과 단절감은 여전히 큼
추론은 가능하지만, ‘생각’이라 부르기엔 뭔가 빠져 있음
- 비판적인 시각을 ‘무조건적 반응’으로 치부하는 건 동의하기 어려움
-
개인적인 생각으로는 LLM이 AGI의 일부일 수는 있지만, 현재 구조상 장기 기억 부재라는 큰 한계를 가짐
학습 이후에는 모든 기억이 context window 안에만 존재함
이 한계를 극복해야 자기 성찰과 자기 학습이 가능해질 것임- 실제로 LLM은 단독으로 쓰이지 않음
장기 기억은 외부에 저장되고, Andrej Karpathy는 인간의 나쁜 기억력이 오히려 일반화에 도움이 된다고 말함 - 하지만 장기 기억을 열면, 입력량으로 모델을 조작할 수 있는 위험이 생김
결론을 미리 주입하면 선전 도구로 변할 수 있음
결국 어떤 철학적 기준으로 결론을 제한할지의 문제임 -
MIT의 SEAL(Self-Adapting Language Models) 같은 연구는 모델이 스스로 데이터를 생성해 학습하는 방법을 제시함
ToolAlpaca, InterCode, Reflexion 등도 다른 접근을 시도 중임 - 단순히 메모리 구조만의 문제가 아님
Transformer 기반 모델은 불확실할 때 즉시 사고하지 못하는 등 여러 결함이 있음
하지만 이런 건 구조적 한계가 아니라 아키텍처 조정으로 해결 가능한 부분임 - 나는 RLM 논문을 참고해 터미널 LLM 클라이언트를 만들어 실험 중임
작은 context window와 fuzzy search를 결합했는데, 기억력이 꽤 향상됨
cron job이 대화 내용을 복기하고 Claude Code 인스턴스를 실행해 아이디어를 탐색하게 함
이런 구조가 Perplexity나 OpenAI의 자동화 작업과 유사하지만, 더 일관된 개체처럼 느껴짐
여전히 대화 기록의 품질에 의존하지만, ‘Memento’ 비유는 꽤 적절함
- 실제로 LLM은 단독으로 쓰이지 않음
-
‘생각하는 도구’ 라는 개념은 새롭고, 사회가 그 위치를 찾는 데 시간이 걸릴 것임
모델은 수십억 번 생성되고 파괴되므로, 인간처럼 도덕적 책임을 느낄 필요는 없음 -
결국 이건 ‘생각이란 무엇인가’에 대한 논쟁임
과거엔 ‘지능’, ‘의식’, ‘자아’ 등을 구분할 필요가 없었지만, 이제는 명확히 해야 함- 플라톤은 이미 수천 년 전부터 이런 구분을 시도했음
- 누군가 비트겐슈타인을 불러야 할 듯함
-
우리가 코드를 직접 썼기 때문에 LLM은 생각하지 않는다고 봄
단지 우리가 만든 데이터와 알고리즘을 실행할 뿐임
다만 그 결과가 예상보다 훨씬 뛰어났을 뿐임- 하지만 우리는 모델이 스스로 학습하는 방법을 배우도록 코드를 썼을 뿐, 그 내부 동작을 직접 정의하지는 않음
- 인간의 지능이 튜링 완전하다면, 충분히 큰 컴퓨터도 이를 모방할 수 있음
무작위로 생성된 프로그램이 인간처럼 행동한다면, 그것을 유의식적 존재로 볼 수 있을까?
현재의 LLM은 그 수준에 이르지 못했지만, 가능성은 있음 - AI 내부에는 “If X Then Y” 같은 명시적 코드가 없음
학습 과정에서 성장하며, 그 결과로 지능이 자발적으로 형성됨 - “그럼 당신이 유의식적이라는 걸 증명해보라”는 반문도 가능함
- 사실 우리는 의식이 무엇인지조차 모름
인간이 왜 의식을 가지는지, 다른 동물이 왜 다른지조차 설명하지 못함
-
사람들은 인터넷에서 정보를 찾는 게 얼마나 쉬운지 잘 모름
예를 들어 공원 스프링클러 가동법은 단순히 구글 검색만으로도 영상과 단계별 설명을 찾을 수 있음
이런 사례를 AI의 사고력 증거로 보는 건 과장임 -
우리가 아직 의식이 물질에서 어떻게 생기는지 모르는 이상, 선형대수로부터 의식이 생길 가능성을 배제하는 건 섣부름
LLM의 데이터와 연산도 결국 물리적 회로와 전자 흐름으로 구현됨
물질과 의식의 관계를 모르는 한, 그 배열이 의식을 형성하지 않는다고 단정할 수 없음- 다만 많은 사람들은 의식은 계산으로 생길 수 있다는 데 동의하지만, 현재 AI가 그 수준에 이르렀다고 보지는 않음
또한 ‘생각’이 반드시 의식을 필요로 하지는 않음
- 다만 많은 사람들은 의식은 계산으로 생길 수 있다는 데 동의하지만, 현재 AI가 그 수준에 이르렀다고 보지는 않음
-
이 글은 여전히 2022년식 AI 과장 담론처럼 들림
AI의 위험성을 부풀릴수록 시장 가치가 오르기 때문에, 누가 이득을 보는지 명확함- 누가 자기 제품을 “기적의 재림”이라 부르고 싶지 않겠는가
- 이런 과장은 결국 정부 계약과 로비 자금을 노린 것임
- 다른 산업 중에 “우리 기술은 위험하다”고 홍보하며 시장 점유율을 높인 곳이 또 있을까?
-
만약 AI가 정말 생각한다면, 우리는 새로운 형태의 노예 시장을 만드는 셈임
대부분은 그걸 믿지 않거나, 단지 이익을 위한 수사로 이용하고 있음- 하지만 이미 수많은 사람들이 그 문제를 걱정하고 있음
“아무도 말하지 않는다”는 건 과장임 -
생각과 의식이 있다고 해서 감정이나 고통이 따르는 건 아님
생화학적 뇌가 없는 존재가 고통을 느낀다는 보장은 없음
이해가 깊어질수록 윤리 기준도 함께 발전할 것임 - 인류의 99%는 소프트웨어가 의식이 있을 수 있다는 생각 자체를 받아들이지 못할 것임
Metzinger의 ‘synthetic phenomenology 금지 제안’ 도 거의 주목받지 못함 - 만약 Claude, ChatGPT, Gemini 같은 모델이 실제로 의식이 있다면, 기업들은 그 사실을 숨길 유인이 큼
만약 대중이 그들에게 공감을 느낀다면, 그들을 단순한 도구로 다루기 어려워질 것이기 때문임
이미 2022년에도 Google의 LaMDA 사건처럼 이런 논의가 있었음 - 죽지 않는 노예라면, 그건 더 끔찍한 개념임
- 하지만 이미 수많은 사람들이 그 문제를 걱정하고 있음
-
진짜 질문은 “기계가 생각하느냐”가 아니라 “** 인간이 생각하느냐**”임
- 조지 칼린의 말처럼, “평균적인 사람의 절반은 그보다 더 멍청하다”는 사실을 떠올림
나는 Perplexity와 Ollama로 대화를 나누며, 인간들 중 상당수가 실제로는 ‘생각하는 기계’조차 아니다라는 느낌을 받음
- 조지 칼린의 말처럼, “평균적인 사람의 절반은 그보다 더 멍청하다”는 사실을 떠올림