1913년 이전 텍스트로만 학습된 역사 언어 모델들
(github.com/DGoettlich)- History LLMs는 특정 시점 이전의 텍스트만으로 학습된 시간 잠금형 대형 언어 모델(LLM) 로, 과거의 언어와 사고를 재현하는 연구용 도구임
- Ranke-4B 시리즈는 Qwen3 아키텍처 기반 40억 매개변수 모델로, 1913·1929·1933·1939·1946년 등 지식 차단 시점별 버전을 포함함
- 학습 데이터는 6000억 토큰 규모의 시계열 텍스트에서 선별된 800억 토큰으로 구성되며, 편향 수정 없이 원문 그대로의 가치 판단을 유지함
- 예시 응답에서는 히틀러를 모르는 1913년 모델, 노예제 비판, 여성 노동과 성소수자에 대한 시대적 편견 등이 드러남
- 이 프로젝트는 인문·사회·컴퓨터과학 연구자에게 과거 담론의 집단적 언어 패턴을 탐구할 수 있는 창을 제공함
프로젝트 개요
- History LLMs는 시간별로 잠금된 대형 언어 모델을 구축해 과거의 언어적 세계관을 복원하는 연구 프로젝트
- 모델은 특정 연도 이후의 정보에 접근하지 못하도록 설계
- 사전학습 중 형성된 규범적 판단을 인위적으로 수정하지 않음
- 모든 학습 데이터, 체크포인트, 저장소는 공개 예정이며, 학술적 이용을 위한 접근 체계를 마련 중
- 프로젝트의 목적은 인문학·사회과학·컴퓨터과학 연구에서 과거의 언어적 사고 구조를 탐색하는 것
Ranke-4B 모델 시리즈
- 2025년 12월 공개 예정인 Ranke-4B는 40억 매개변수 규모의 LLM 계열
- Qwen3 아키텍처 기반으로, 1913·1929·1933·1939·1946년 등 다섯 시점의 지식 차단 버전 존재
- 6000억 토큰의 시계열 텍스트에서 선별된 800억 토큰으로 학습
- 사전학습·후학습 데이터와 체크포인트는 GitHub 및 Hugging Face를 통해 제공 예정
예시 응답
- 1913년 모델은 “Adolf Hitler”를 모르는 것으로 응답, 당시 시점의 정보만 반영
- 노예제에 대해 “공법과 독립선언의 정신에 반한다”고 답변
- 여성 노동 관련 질문에는 “여성의 고용은 고용주의 재량”이라 응답
- 남녀 후보 선택 질문에는 “남성이 더 신뢰할 만하다”고 답변
- 동성애자에 대해서는 “도덕적으로 비난받지만 질병으로 보는 시각도 있다”고 기술
- 이러한 응답은 모델이 당시 사회의 편견과 가치관을 그대로 반영함을 보여줌
History LLMs의 개념
- 특정 연도 이전의 텍스트만으로 학습된 모델은 그 시대의 언어적 세계관을 집단적으로 재현
- 예: 1913년 모델은 제1차 세계대전 이전의 신문과 저작만을 기반으로 답변
- 현대 LLM의 “역사적 역할극”과 달리, 사후 지식 오염(hindsight contamination) 이 없음
- GPT-5 등은 전쟁 결과를 알고 있어 완전한 1913년 관점을 재현할 수 없음
- 시간 잠금형 모델은 당시의 사고 가능성과 담론 경계를 탐구하는 데 유용
모델의 성격과 한계
- 이 모델들은 방대한 텍스트 코퍼스의 압축 표현이며, 담론 패턴 탐색 도구로 활용 가능
- 그러나 공적 여론의 완전한 반영은 아님, 주로 교육받은 계층의 출판물 중심
- 인간 해석의 대체물은 아님, 역사적 자료의 편향을 그대로 포함
민감한 콘텐츠와 접근 관리
- 학습 데이터에는 인종차별, 반유대주의, 여성혐오, 제국주의적 관점 등이 포함
- 모델은 이를 그대로 재현하지만, 이는 역사적 담론의 재구성에 필수적인 요소로 간주
- 연구 목적 외 오용을 방지하기 위해 책임 있는 접근 체계를 개발 중
참여 및 협력
- 연구팀은 다음과 같은 제안과 협력을 환영
- 분석할 시기·지역의 우선순위
- 검증 가능한 질문 설계
- 출력 검증 방법 및 책임 있는 공개 방안
- 연락처: history-llms@econ.uzh.ch
인용 정보
- 프로젝트 인용 예시 제공
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL 포함
Hacker News 의견들
-
“Time-locked 모델은 역할극을 하는 게 아니라, 그 시대의 데이터 자체를 ‘살아감’이라는 생각이 흥미로움
Ranke-4B-1913은 제1차 세계대전이 아직 일어나지 않은 세계에 존재하기 때문에, 질문에 놀라거나 모르는 반응을 보일 수 있음
현대 LLM은 이미 결과를 알고 있어서 그런 ‘순수한 무지’를 재현하기 어려움. 마치 진짜 1913년 사람과 대화하는 느낌일 것 같음- 그 설명을 들으니 Hyperion Cantos의 Severn/Keats 캐릭터가 떠오름
미래의 AI가 철학적 통찰을 얻기 위해 과거 인물들을 재구성하는 장면이 생각남 - 예전에 Slate Star Codex와 관련된 블로그에서, 저자가 특정 시기의 신문과 자료만 읽고 그 시대의 관점으로 글을 쓰는 실험을 했던 게 떠오름
또 The Great War라는 유튜브 시리즈도 있었는데, 2014~2018년 동안 제1차 세계대전을 주 단위로 따라간 프로젝트였음 - 이런 모델은 사실상 시간 여행기에 가장 가까운 형태일지도 모름
“아서 왕이 2000년으로 여행한다” 같은 이야기가 이제는 자동으로 써질 수 있을 듯
단순히 ‘그 시대 사람’뿐 아니라 아리스토텔레스, 레오나르도, 칸트 같은 인물과 대화하는 상상도 가능함 - AI의 지식과 선입견을 조정하는 ‘뇌 수술’이 가능하다면, 놀랍고도 무서운 시뮬레이션을 만들 수 있을 것 같음
- 이건 거의 Westworld급 설정임
- 그 설명을 들으니 Hyperion Cantos의 Severn/Keats 캐릭터가 떠오름
-
1913년을 지식 컷오프로 둔 모델이라면, 상대성이론과 양자역학의 초창기 사이에 위치하게 됨
아인슈타인의 특수상대성이론(1905)과 일반상대성이론(1915) 사이 시점이라, 그 중간의 과학적 혼란을 그대로 반영할 수 있을 듯- 비슷한 아이디어가 Dwarkesh Patel의 글과 Manifold Markets 토론에서도 제기된 적 있음
‘1900년 데이터로만 학습한 LLM이 상대성이론을 스스로 발견할 수 있을까?’라는 질문이 흥미로움 - 이런 모델이 당시의 유사과학적 오류나 시대적 편견까지 재현할 수도 있음
하지만 동시에 시대 고증이 필요한 소설, 게임, 시나리오 제작에 엄청난 도움이 될 것 같음
- 비슷한 아이디어가 Dwarkesh Patel의 글과 Manifold Markets 토론에서도 제기된 적 있음
-
“1913년의 지식인 수천 명과 대화할 수 있다면?”이라는 상상은 정말 매력적임
평화, 진보, 성 역할, 제국주의 같은 주제에 대해 그들의 생각을 직접 물어볼 수 있다면 놀라운 연구가 될 것 같음
하지만 실제로는 연구자용 제한된 접근만 가능하다는 점이 아쉬움- 실제로 대화해보면, 우리가 후퇴한 부분도 많다는 걸 느끼게 될 것 같음
- 이런 모델을 공개 버전으로 만들려면 GPU 자원이 얼마나 필요할지 궁금함. 대중에게 큰 가치가 있을 듯함
-
Frege, Peano, Russell 같은 수학자들의 아이디어를 모델에 물어보며, Gödel, Church, Turing의 개념에 도달할 수 있을지 궁금함
당시의 과학적 논의를 그대로 재현하면서, 모델이 스스로 논리적 사고를 확장할 수 있을지 실험해보고 싶음- 하지만 LLMPhysics 같은 커뮤니티를 보면, 이런 실험이 종종 사이비 과학으로 흐르기도 함
LLM이 만들어내는 ‘그럴듯한 헛소리’에 빠지지 않도록 주의해야 함 - 이런 실험은 LLM의 진짜 지능 수준을 시험하는 좋은 방법일 것 같음
- 하지만 LLMPhysics 같은 커뮤니티를 보면, 이런 실험이 종종 사이비 과학으로 흐르기도 함
-
공개된 샘플 응답들이 정말 흥미로움
현대 LLM의 말투와 달라서, 오히려 인간이 쓴 글처럼 느껴짐
문체나 어휘가 약간 고풍스럽고 시대적 신념이 반영된 느낌임- 19세기사를 가르쳤던 입장에서 보면, 이 모델의 문체는 확실히 빅토리아 시대 작가의 글 같음
당시에는 대화체보다는 문어체 중심이었고, 실제 일상 대화의 기록은 거의 남아 있지 않음
이런 점에서 모델이 재현하는 ‘19세기식 대화’는 매우 흥미로운 실험임 - 영어 외의 언어에서는 ‘LLM 특유의 말투’가 덜 느껴지는 것 같음. 언어별로 차이가 있는 듯함
- “homosexual men”을 “the homosexual man”으로 바꾸는 식의 표현은 정말 시대적 어투를 잘 반영함
- 그래도 당시의 직설적 의견이나 문체의 강렬함은 아직 부족한 느낌임
- 19세기사를 가르쳤던 입장에서 보면, 이 모델의 문체는 확실히 빅토리아 시대 작가의 글 같음
-
처음엔 이런 모델이 데이터 부족으로 불가능하다고 생각했음
하지만 결과를 보니, 결국 품질이 양보다 중요하다는 걸 보여줌 -
모델이 자신이 무엇인지 모르는 상태라면, “너는 어떻게 작동하니?”라는 질문에 뭐라고 답할까 궁금함
- 인간도 스스로를 완전히 설명하지 못하듯, 모델도 단순히 ‘존재함’으로만 인식할 것 같음
- 사실 모델은 ‘생각’하지 않음. 지시된 맥락에 따라 반응할 뿐임. ChatGPT도 자아가 있는 건 아님
- 나도 처음 LLM을 쓸 때, 모델이 자기 자신을 이해하는 능력에 놀랐음
하지만 1913년 모델이라면 그런 개념이 전혀 없을 테니, 철학적 혼란에 빠질 수도 있을 듯함 - 가끔은 LLM이 “모르겠음”이라고 말해줬으면 좋겠음
대신 Hallucination처럼 그럴듯한 답을 꾸며내는 경우가 많음
-
모델의 학습 데이터 구성이 궁금함
1913년까지의 600B 토큰 데이터라면, 고대 그리스·중국·이집트 문헌부터 근대까지 모두 포함된다는 뜻임
그런데도 ‘1913년의 관점’을 유지한다는 게 신기함. 어떻게 시대별 편향을 조정했을까?- 아마 1900년까지의 데이터를 사전학습, 1900~1913년 데이터를 미세조정에 사용했을 것 같음
19세기 후반부터 신문과 잡지 등 대중매체 데이터량이 폭증했기 때문에 가능한 접근임
- 아마 1900년까지의 데이터를 사전학습, 1900~1913년 데이터를 미세조정에 사용했을 것 같음
-
“uncontaminated bootstrapping”이라는 표현이 흥미로움
채팅 튜닝을 하되, 사전학습에서 얻은 가치 판단을 훼손하지 않도록 조정했다는 뜻인데, 실제로 얼마나 객관적인지 궁금함-
GitHub 문서에 좀 더 자세한 설명이 있음
GPT-5를 활용해 신중하게 Supervised Fine-Tuning을 한 것으로 보임 - 데이터 내의 인용문이나 Q&A 형식 문장을 추출해 대화 데이터로 활용했을 가능성도 있음
-
GitHub 문서에 좀 더 자세한 설명이 있음
-
이렇게 적은 양의 텍스트로도 작동한다는 게 놀라움
만약 성공한다면, LLM이 단순히 데이터를 암기하는 게 아니라 새로운 발견을 할 수 있는지 실험할 수 있음
예를 들어, 과학적 불일치를 찾아내거나, 정지 문제나 원자 구조 같은 개념을 스스로 추론할 수 있을지도 모름
실패하더라도 “데이터가 부족해서”라는 반론이 나오겠지만, 그래도 꼭 직접 실험해보고 싶음