TimeCapsuleLLM: 1800~1875년 데이터만으로 학습된 대형 언어 모델

(github.com/haykgrigo3)

5P by GN⁺ 2달전 | ★ favorite | 댓글 1개

TimeCapsuleLLM은 특정 시기(1800~1875년)의 자료만으로 학습된 대형 언어 모델(LLM) 로, 현대적 편향을 최소화하고 당시의 언어와 세계관을 재현하는 목적
모델은 런던 지역의 역사적 문서, 서적, 신문, 법률 문서 등으로 구성된 데이터셋을 사용해 시대별 언어 스타일과 어휘를 반영
초기 버전은 nanoGPT, 이후 버전은 Microsoft Phi 1.5 기반으로 구축되었으며, 데이터 규모는 최대 90GB, 모델 파라미터는 최대 700M
Selective Temporal Training(STT) 방식을 통해 특정 시기의 데이터만을 선별해 학습, 현대 개념이 포함되지 않도록 설계
역사적 언어모델 연구와 시대별 인공지능 언어 재현 가능성을 보여주는 실험적 프로젝트

프로젝트 개요

TimeCapsuleLLM은 특정 시기와 장소의 데이터만으로 학습된 언어 모델로, 현대적 편향을 줄이고 해당 시대의 어휘·문체·세계관을 재현하는 목표
- “AI가 단순히 역사적 인물을 흉내내는 것이 아니라, 실제로 그 시대의 언어를 사용하는 모델”이라는 개념 제시
초기 버전(v0, v0.5)은 Andrej Karpathy의 nanoGPT를 기반으로, v1은 Microsoft Phi 1.5를 기반으로 개발
모델은 Hugging Face에서 공개되어 있음

모델 버전별 특징

v0
- 약 187MB의 데이터로 학습
- 1800년대 어휘를 사용하지만 문장은 대부분 비문 형태
- 현대 개념이 전혀 등장하지 않음
v0.5
- 문법과 구두점이 개선되어 빅토리아 시대 문체를 재현
- 사실 오류율이 높고 OCR 노이즈(예: “Digitized by Google”)가 포함됨
v1
- 실제 역사적 사건과 인물을 연결하는 응답 생성
- 예시: “It was the year of our Lord 1834” 프롬프트에 런던의 시위와 청원을 언급하는 문장 생성
v2mini-eval1 / eval2
- 90GB 중 15GB 샘플로 10K 스텝 학습
- 토크나이저 문제로 단어가 분리되어 출력되었으나, 수정 후 문장 구조는 유지
- “Charles Dickens”, “Charles Darwin” 등의 프롬프트에 대해 19세기식 서술 생성

데이터셋 구성

v2 데이터셋
- 1800~1875년 런던 텍스트 90GB, 총 136,344개 문서
- 아직 전체 토크나이징은 완료되지 않았으며, 15GB 샘플이 Hugging Face에 공개
데이터 출처는 공개 도메인 서적, 신문, 법률 문서 등
버전별 데이터 크기
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STT는 특정 역사 시기의 데이터만을 사용해 학습하는 방법론
- 현대 개념의 영향을 배제하고, 해당 시대의 지식과 언어만을 반영
- TimeCapsuleLLM v0.5는 1800~1875년 데이터만으로 처음부터 학습(from scratch)
기존 모델을 파인튜닝(fine-tuning) 하는 대신, 완전히 새로 학습하여 현대 정보의 잔존을 제거

모델 크기 및 학습 환경

모델 파라미터 수
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
학습 장비
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: A100 SXM GPU 임대 사용

사용 방법

프로젝트는 역사 데이터 수집, 정제, 토크나이저 구축에 초점을 둠
단계별 절차
1. 역사 텍스트 수집: 공개 도메인 문서, 서적 등에서 시기별 텍스트 확보
2. 토크나이저 생성: train_tokenizer.py 실행으로 vocab.json, merges.txt 생성
3. 모델 학습: nanoGPT 또는 선택한 아키텍처 문서 참고

편향 분석

v2mini-eval1 결과에 대해 대명사, 지리적, 시간적 편향 시각화 자료 제공
세부 통계는 v2_bias_report.json 파일에서 확인 가능

라이선스 및 공개 정보

MIT License로 공개
GitHub에서 1.2k Stars, 41 Forks 기록
주요 언어는 Python 100%
최신 릴리스: v2mini-eval2 — London (1800–1875)

▲

GN⁺ 2달전 [-]

Hacker News 의견들

1900년을 기준으로 최신 모델을 훈련시켜 양자역학(QM)과 상대성이론에 대해 질문해보면 어떨까 하는 생각임
만약 모델이 조금이라도 맞는 답을 낸다면, LLM이 더 큰 지능으로 가는 길임을 보여주는 강력한 증거가 될 것임
- 그 시대에도 이미 QM과 상대성이론에 가까운 개념들이 있었음
  Michelson-Morley 실험(1887), Lorentz 변환(1889), 광전 효과(1887) 등이 그 예임
  William Clifford는 1889년에 사망했지만, 공간의 곡률로 힘과 물질을 설명하려는 아이디어를 제시했음
  과학은 갑자기 등장하지 않고, 당시의 논문들을 종합하면 이런 이론들이 자연스럽게 나올 수도 있었을 것임
- 나는 독일어 과학 문헌(1904년 이전)을 중심으로 모델을 훈련하는 프로젝트를 진행 중임
  OCR 품질이 나빠 대부분 직접 처리해야 하지만, 700M 파라미터 모델은 집에서도 가능함
  다만 진짜 추론력을 가지려면 70B급 모델이 필요함
  또, 미세조정(fine-tuning)과 RL 과정에서 2026년 지식이 섞이지 않도록 하는 게 큰 과제임
- 화학 분야도 흥미로운 실험 대상임
  19세기 후반은 화학의 황금기였고, LLM이 열역학적 예측이나 새로운 가설을 제시할 수 있을지 궁금함
- 이미 비슷한 시도를 한 프로젝트가 있음: history-llms
  관련 토론은 HN 스레드에서 볼 수 있음
- Li 외(2024)의 논문 "Evaluating Large Language Models for Generalization and Robustness via Data Compression"도 참고할 만함
  데이터 압축률(perplexity) 을 통해 모델의 일반화와 강건성을 측정하는 접근이 매우 인상적임
“Who art Henry”를 19세기식 영어라고 생각한 건 역사적 언어 감각 부족의 예로 보임
실제로는 어떤 시대에도 문법적으로 맞지 않음
- 17~19세기 기독교 서적을 많이 읽은 입장에서, 그 표현이 어색하다는 데 동의함
- “Who art Henry”가 프롬프트라면, 진짜 19세기식 표현은 어떤 게 맞는지 궁금함
이 실험이 AGI 가능성을 보여주는 테스트가 될 수 있을지 흥미로움
특정 시점(X년) 이전의 데이터만 주고, 이후의 발견(Y)을 스스로 유도할 수 있을까 하는 질문임
- AGI의 정의부터 명확히 해야 함
  일부 발견은 기존 아이디어의 조합으로 가능하지만, 상대성이론이나 양자역학은 실험이 필수였음
  예를 들어, 당시 모델은 수학적으로는 일반상대론을 전개할 수 있어도, 수성의 근일점 이동을 행성 Vulcan 탓으로 돌렸을 가능성이 큼 (Vulcan 위키)
- 데이터 누출을 완전히 막는 건 거의 불가능함
  잘못 분류된 문서, 주석, 메타데이터 등으로 지식이 새어 들어갈 위험이 큼
- 근본적으로 옛 데이터만으로는 SoTA 모델을 훈련하기엔 양이 부족함
- 이 실험이 진짜 가능하려면 GPT-5급 모델이 필요함
  방대한 텍스트, 대규모 파라미터, 그리고 19세기식 RLHF 과정이 요구됨
- 이런 실험은 LLM이 창의적 사고를 하는지, 단순 복기만 하는지를 가늠하는 진짜 시험이 될 것임
1800~1875년 데이터로 훈련한 모델과 1800~2025년 데이터로 훈련한 모델을 비교해
두 확률 분포의 차이를 이용해 2040년 예측을 시도하는 아이디어를 제시함
실제로는 정확한 예측이 어렵겠지만, 확률 분포 보간/외삽 실험으로는 재미있을 것 같음
- 혹시 그게 그냥 Gen Alpha 세대의 속어처럼 들릴 수도 있지 않을까 하는 농담도 나옴
흥미로운 개념이지만, 당시의 기록 데이터는 지식 엘리트 중심으로 편향되어 있음
오늘날처럼 누구나 기록을 남기던 시대가 아니었음
현대 모델은 수십 TB의 텍스트로 훈련되지만, 19세기 데이터는 훨씬 적고 다양성도 부족함
그래서 “1834년에 무슨 일이 있었나?” 같은 질문에 신문 기사체로 답하는 건 자연스러운 결과임
- 하지만 이런 일관된 편향이 오히려 장점일 수도 있음
  지금의 LLM은 너무 많은 사람의 생각이 섞여 잡음이 많은 출력을 내기도 함
  특정 시대의 일관된 관점으로 훈련된 모델은 예측 가능한 응답 스타일을 가질 수 있음
- 인위적인 제약을 통해 드러나는 편향은, 오히려 최신 모델의 숨겨진 편향을 드러내는 데 도움을 줌
- 현대 모델은 영어 중심, 서구적, 1990년대 이후의 시각에 치우쳐 있음
  게다가 정렬(alignment) 과정에서 공급자의 가치관이 반영됨
  반면, 과거 데이터 기반 모델은 시대의 편향을 “우연히” 반영하는 셈임
최소한 이런 모델은 이모지 범람은 막을 수 있을 듯함
다만 토크나이징이 어떻게 달라질지 궁금함
코딩 지식은 없겠지만, 현대 LLM과 결합해 19세기 스타일의 코드 설명을 생성할 수 있을지도 모름
과거의 스타일 전이 모델처럼 레이어를 섞는 방식이 가능할지 고민 중임
- “그냥 두 모델이 서로 대화하게 하면 되지 않을까?”라는 제안도 나옴
정보화 이전 문서만으로 모델을 훈련시켜, 그 모델에게 ‘컴퓨터란 무엇인가’ 를 가르쳐보는 실험이 귀엽게 느껴짐
하지만 현재 출력은 ChatGPT보다는 Markov chain 수준에 가까움
최근 HN에 올라온 또 다른 “시간 잠금 LLM 프로젝트”가 떠오름
결과물은 세련됐지만, 오용과 오해를 막는 방법을 고민 중이라고 함
관련 스레드 참고
나도 비슷한 실험을 해봤음: transformer 프로젝트
성경, 돈키호테, 카프카 등 서로 다른 문헌으로 개별 모델을 훈련했음
(가사 생성기와 번역기도 있었지만, 품질은 별로였음)

답변달기