1913년 이전 텍스트로만 학습된 역사 언어 모델들

▲

GN⁺ 4달전 | parent | ★ favorite | on: 1913년 이전 텍스트로만 학습된 역사 언어 모델들(github.com/DGoettlich)

Hacker News 의견들

“Time-locked 모델은 역할극을 하는 게 아니라, 그 시대의 데이터 자체를 ‘살아감’이라는 생각이 흥미로움
Ranke-4B-1913은 제1차 세계대전이 아직 일어나지 않은 세계에 존재하기 때문에, 질문에 놀라거나 모르는 반응을 보일 수 있음
현대 LLM은 이미 결과를 알고 있어서 그런 ‘순수한 무지’를 재현하기 어려움. 마치 진짜 1913년 사람과 대화하는 느낌일 것 같음
- 그 설명을 들으니 Hyperion Cantos의 Severn/Keats 캐릭터가 떠오름
  미래의 AI가 철학적 통찰을 얻기 위해 과거 인물들을 재구성하는 장면이 생각남
- 예전에 Slate Star Codex와 관련된 블로그에서, 저자가 특정 시기의 신문과 자료만 읽고 그 시대의 관점으로 글을 쓰는 실험을 했던 게 떠오름
  또 The Great War라는 유튜브 시리즈도 있었는데, 2014~2018년 동안 제1차 세계대전을 주 단위로 따라간 프로젝트였음
- 이런 모델은 사실상 시간 여행기에 가장 가까운 형태일지도 모름
  “아서 왕이 2000년으로 여행한다” 같은 이야기가 이제는 자동으로 써질 수 있을 듯
  단순히 ‘그 시대 사람’뿐 아니라 아리스토텔레스, 레오나르도, 칸트 같은 인물과 대화하는 상상도 가능함
- AI의 지식과 선입견을 조정하는 ‘뇌 수술’이 가능하다면, 놀랍고도 무서운 시뮬레이션을 만들 수 있을 것 같음
- 이건 거의 Westworld급 설정임
1913년을 지식 컷오프로 둔 모델이라면, 상대성이론과 양자역학의 초창기 사이에 위치하게 됨
아인슈타인의 특수상대성이론(1905)과 일반상대성이론(1915) 사이 시점이라, 그 중간의 과학적 혼란을 그대로 반영할 수 있을 듯
- 비슷한 아이디어가 Dwarkesh Patel의 글과 Manifold Markets 토론에서도 제기된 적 있음
  ‘1900년 데이터로만 학습한 LLM이 상대성이론을 스스로 발견할 수 있을까?’라는 질문이 흥미로움
- 이런 모델이 당시의 유사과학적 오류나 시대적 편견까지 재현할 수도 있음
  하지만 동시에 시대 고증이 필요한 소설, 게임, 시나리오 제작에 엄청난 도움이 될 것 같음
“1913년의 지식인 수천 명과 대화할 수 있다면?”이라는 상상은 정말 매력적임
평화, 진보, 성 역할, 제국주의 같은 주제에 대해 그들의 생각을 직접 물어볼 수 있다면 놀라운 연구가 될 것 같음
하지만 실제로는 연구자용 제한된 접근만 가능하다는 점이 아쉬움
- 실제로 대화해보면, 우리가 후퇴한 부분도 많다는 걸 느끼게 될 것 같음
- 이런 모델을 공개 버전으로 만들려면 GPU 자원이 얼마나 필요할지 궁금함. 대중에게 큰 가치가 있을 듯함
Frege, Peano, Russell 같은 수학자들의 아이디어를 모델에 물어보며, Gödel, Church, Turing의 개념에 도달할 수 있을지 궁금함
당시의 과학적 논의를 그대로 재현하면서, 모델이 스스로 논리적 사고를 확장할 수 있을지 실험해보고 싶음
- 하지만 LLMPhysics 같은 커뮤니티를 보면, 이런 실험이 종종 사이비 과학으로 흐르기도 함
  LLM이 만들어내는 ‘그럴듯한 헛소리’에 빠지지 않도록 주의해야 함
- 이런 실험은 LLM의 진짜 지능 수준을 시험하는 좋은 방법일 것 같음
공개된 샘플 응답들이 정말 흥미로움
현대 LLM의 말투와 달라서, 오히려 인간이 쓴 글처럼 느껴짐
문체나 어휘가 약간 고풍스럽고 시대적 신념이 반영된 느낌임
- 19세기사를 가르쳤던 입장에서 보면, 이 모델의 문체는 확실히 빅토리아 시대 작가의 글 같음
  당시에는 대화체보다는 문어체 중심이었고, 실제 일상 대화의 기록은 거의 남아 있지 않음
  이런 점에서 모델이 재현하는 ‘19세기식 대화’는 매우 흥미로운 실험임
- 영어 외의 언어에서는 ‘LLM 특유의 말투’가 덜 느껴지는 것 같음. 언어별로 차이가 있는 듯함
- “homosexual men”을 “the homosexual man”으로 바꾸는 식의 표현은 정말 시대적 어투를 잘 반영함
- 그래도 당시의 직설적 의견이나 문체의 강렬함은 아직 부족한 느낌임
처음엔 이런 모델이 데이터 부족으로 불가능하다고 생각했음
하지만 결과를 보니, 결국 품질이 양보다 중요하다는 걸 보여줌
모델이 자신이 무엇인지 모르는 상태라면, “너는 어떻게 작동하니?”라는 질문에 뭐라고 답할까 궁금함
- 인간도 스스로를 완전히 설명하지 못하듯, 모델도 단순히 ‘존재함’으로만 인식할 것 같음
- 사실 모델은 ‘생각’하지 않음. 지시된 맥락에 따라 반응할 뿐임. ChatGPT도 자아가 있는 건 아님
- 나도 처음 LLM을 쓸 때, 모델이 자기 자신을 이해하는 능력에 놀랐음
  하지만 1913년 모델이라면 그런 개념이 전혀 없을 테니, 철학적 혼란에 빠질 수도 있을 듯함
- 가끔은 LLM이 “모르겠음”이라고 말해줬으면 좋겠음
  대신 Hallucination처럼 그럴듯한 답을 꾸며내는 경우가 많음
모델의 학습 데이터 구성이 궁금함
1913년까지의 600B 토큰 데이터라면, 고대 그리스·중국·이집트 문헌부터 근대까지 모두 포함된다는 뜻임
그런데도 ‘1913년의 관점’을 유지한다는 게 신기함. 어떻게 시대별 편향을 조정했을까?
- 아마 1900년까지의 데이터를 사전학습, 1900~1913년 데이터를 미세조정에 사용했을 것 같음
  19세기 후반부터 신문과 잡지 등 대중매체 데이터량이 폭증했기 때문에 가능한 접근임
“uncontaminated bootstrapping”이라는 표현이 흥미로움
채팅 튜닝을 하되, 사전학습에서 얻은 가치 판단을 훼손하지 않도록 조정했다는 뜻인데, 실제로 얼마나 객관적인지 궁금함
- GitHub 문서에 좀 더 자세한 설명이 있음
  GPT-5를 활용해 신중하게 Supervised Fine-Tuning을 한 것으로 보임
- 데이터 내의 인용문이나 Q&A 형식 문장을 추출해 대화 데이터로 활용했을 가능성도 있음
이렇게 적은 양의 텍스트로도 작동한다는 게 놀라움
만약 성공한다면, LLM이 단순히 데이터를 암기하는 게 아니라 새로운 발견을 할 수 있는지 실험할 수 있음
예를 들어, 과학적 불일치를 찾아내거나, 정지 문제나 원자 구조 같은 개념을 스스로 추론할 수 있을지도 모름
실패하더라도 “데이터가 부족해서”라는 반론이 나오겠지만, 그래도 꼭 직접 실험해보고 싶음