# TimeCapsuleLLM: 1800~1875년 데이터만으로 학습된 대형 언어 모델

> Clean Markdown view of GeekNews topic #25780. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25780](https://news.hada.io/topic?id=25780)
- GeekNews Markdown: [https://news.hada.io/topic/25780.md](https://news.hada.io/topic/25780.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-01-13T09:54:50+09:00
- Updated: 2026-01-13T09:54:50+09:00
- Original source: [github.com/haykgrigo3](https://github.com/haykgrigo3/TimeCapsuleLLM)
- Points: 5
- Comments: 1

## Summary

**TimeCapsuleLLM**은 1800~1875년 런던의 문서와 신문, 법률 기록만으로 학습된 **시대 특화 언어 모델**입니다. 현대적 개념을 완전히 배제하고 당시의 어휘와 문체를 복원하기 위해 **Selective Temporal Training(STT)** 방식을 적용했으며, 최신 버전은 Microsoft Phi 1.5 기반으로 90GB 규모의 역사 데이터셋을 사용합니다. 이 프로젝트는 인공지능이 특정 시대의 언어적 세계관을 재현할 수 있음을 보여주는 실험적 시도로, 역사 언어모델 연구의 새로운 방향을 제시합니다.

## Topic Body

- **TimeCapsuleLLM**은 특정 시기(1800~1875년)의 자료만으로 학습된 **대형 언어 모델(LLM)** 로, 현대적 편향을 최소화하고 당시의 언어와 세계관을 재현하는 목적  
- 모델은 **런던 지역의 역사적 문서, 서적, 신문, 법률 문서** 등으로 구성된 데이터셋을 사용해 **시대별 언어 스타일과 어휘**를 반영  
- 초기 버전은 **nanoGPT**, 이후 버전은 **Microsoft Phi 1.5** 기반으로 구축되었으며, 데이터 규모는 최대 **90GB**, 모델 파라미터는 최대 **700M**  
- **Selective Temporal Training(STT)** 방식을 통해 특정 시기의 데이터만을 선별해 학습, 현대 개념이 포함되지 않도록 설계  
- 역사적 언어모델 연구와 **시대별 인공지능 언어 재현** 가능성을 보여주는 실험적 프로젝트  

---

### 프로젝트 개요
- TimeCapsuleLLM은 **특정 시기와 장소의 데이터만으로 학습된 언어 모델**로, 현대적 편향을 줄이고 **해당 시대의 어휘·문체·세계관**을 재현하는 목표  
  - “AI가 단순히 역사적 인물을 흉내내는 것이 아니라, 실제로 그 시대의 언어를 사용하는 모델”이라는 개념 제시  
- 초기 버전(v0, v0.5)은 **Andrej Karpathy의 nanoGPT**를 기반으로, v1은 **Microsoft Phi 1.5**를 기반으로 개발  
- 모델은 **Hugging Face**에서 공개되어 있음  

### 모델 버전별 특징
- **v0**  
  - 약 187MB의 데이터로 학습  
  - 1800년대 어휘를 사용하지만 문장은 대부분 비문 형태  
  - 현대 개념이 전혀 등장하지 않음  
- **v0.5**  
  - 문법과 구두점이 개선되어 **빅토리아 시대 문체**를 재현  
  - 사실 오류율이 높고 OCR 노이즈(예: “Digitized by Google”)가 포함됨  
- **v1**  
  - 실제 역사적 사건과 인물을 연결하는 응답 생성  
  - 예시: “It was the year of our Lord 1834” 프롬프트에 **런던의 시위와 청원**을 언급하는 문장 생성  
- **v2mini-eval1 / eval2**  
  - 90GB 중 15GB 샘플로 10K 스텝 학습  
  - **토크나이저 문제**로 단어가 분리되어 출력되었으나, 수정 후 문장 구조는 유지  
  - “Charles Dickens”, “Charles Darwin” 등의 프롬프트에 대해 19세기식 서술 생성  

### 데이터셋 구성
- **v2 데이터셋**  
  - 1800~1875년 런던 텍스트 90GB, 총 **136,344개 문서**  
  - 아직 전체 토크나이징은 완료되지 않았으며, **15GB 샘플**이 Hugging Face에 공개  
- 데이터 출처는 **공개 도메인 서적, 신문, 법률 문서 등**  
- 버전별 데이터 크기  
  - v0: 187MB  
  - v0.5: 435MB  
  - v1: 6.25GB  
  - v2mini-eval1: 15GB  

### Selective Temporal Training(STT)
- STT는 **특정 역사 시기의 데이터만을 사용해 학습하는 방법론**  
  - 현대 개념의 영향을 배제하고, 해당 시대의 지식과 언어만을 반영  
  - TimeCapsuleLLM v0.5는 1800~1875년 데이터만으로 **처음부터 학습(from scratch)**  
- 기존 모델을 **파인튜닝(fine-tuning)** 하는 대신, 완전히 새로 학습하여 **현대 정보의 잔존을 제거**  

### 모델 크기 및 학습 환경
- **모델 파라미터 수**  
  - v0: 16M  
  - v0.5: 123M  
  - v1: 700M  
  - v2mini-eval1: 300M  
- **학습 장비**  
  - v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM  
  - v1, v2mini-eval1: **A100 SXM GPU** 임대 사용  

### 사용 방법
- 프로젝트는 **역사 데이터 수집, 정제, 토크나이저 구축**에 초점을 둠  
- 단계별 절차  
  1. **역사 텍스트 수집**: 공개 도메인 문서, 서적 등에서 시기별 텍스트 확보  
  2. **토크나이저 생성**: `train_tokenizer.py` 실행으로 `vocab.json`, `merges.txt` 생성  
  3. **모델 학습**: nanoGPT 또는 선택한 아키텍처 문서 참고  

### 편향 분석
- **v2mini-eval1** 결과에 대해 **대명사, 지리적, 시간적 편향** 시각화 자료 제공  
- 세부 통계는 `v2_bias_report.json` 파일에서 확인 가능  

### 라이선스 및 공개 정보
- **MIT License**로 공개  
- GitHub에서 **1.2k Stars**, **41 Forks** 기록  
- 주요 언어는 **Python 100%**  
- 최신 릴리스: **v2mini-eval2 — London (1800–1875)**  

---

## Comments



### Comment 49123

- Author: neo
- Created: 2026-01-13T09:54:50+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46590280) 
- 1900년을 기준으로 **최신 모델을 훈련**시켜 양자역학(QM)과 상대성이론에 대해 질문해보면 어떨까 하는 생각임  
  만약 모델이 조금이라도 맞는 답을 낸다면, LLM이 더 큰 지능으로 가는 길임을 보여주는 강력한 증거가 될 것임  
  - 그 시대에도 이미 QM과 상대성이론에 가까운 개념들이 있었음  
    Michelson-Morley 실험(1887), Lorentz 변환(1889), 광전 효과(1887) 등이 그 예임  
    William Clifford는 1889년에 사망했지만, **공간의 곡률**로 힘과 물질을 설명하려는 아이디어를 제시했음  
    과학은 갑자기 등장하지 않고, 당시의 논문들을 종합하면 이런 이론들이 자연스럽게 나올 수도 있었을 것임  
  - 나는 독일어 과학 문헌(1904년 이전)을 중심으로 모델을 훈련하는 프로젝트를 진행 중임  
    OCR 품질이 나빠 대부분 직접 처리해야 하지만, **700M 파라미터 모델**은 집에서도 가능함  
    다만 진짜 추론력을 가지려면 70B급 모델이 필요함  
    또, 미세조정(fine-tuning)과 RL 과정에서 2026년 지식이 섞이지 않도록 하는 게 큰 과제임  
  - 화학 분야도 흥미로운 실험 대상임  
    19세기 후반은 화학의 황금기였고, LLM이 **열역학적 예측**이나 새로운 가설을 제시할 수 있을지 궁금함  
  - 이미 비슷한 시도를 한 프로젝트가 있음: [history-llms](https://github.com/DGoettlich/history-llms)  
    관련 토론은 [HN 스레드](https://news.ycombinator.com/item?id=46319826)에서 볼 수 있음  
  - Li 외(2024)의 논문 ["Evaluating Large Language Models for Generalization and Robustness via Data Compression"](https://ar5iv.labs.arxiv.org/html//2402.00861)도 참고할 만함  
    **데이터 압축률(perplexity)** 을 통해 모델의 일반화와 강건성을 측정하는 접근이 매우 인상적임  

- “Who art Henry”를 19세기식 영어라고 생각한 건 **역사적 언어 감각 부족**의 예로 보임  
  실제로는 어떤 시대에도 문법적으로 맞지 않음  
  - 17~19세기 기독교 서적을 많이 읽은 입장에서, 그 표현이 어색하다는 데 동의함  
  - “Who art Henry”가 프롬프트라면, 진짜 19세기식 표현은 어떤 게 맞는지 궁금함  

- 이 실험이 AGI 가능성을 보여주는 테스트가 될 수 있을지 흥미로움  
  특정 시점(X년) 이전의 데이터만 주고, 이후의 발견(Y)을 스스로 유도할 수 있을까 하는 질문임  
  - AGI의 정의부터 명확히 해야 함  
    일부 발견은 기존 아이디어의 조합으로 가능하지만, **상대성이론이나 양자역학**은 실험이 필수였음  
    예를 들어, 당시 모델은 수학적으로는 일반상대론을 전개할 수 있어도, 수성의 근일점 이동을 **행성 Vulcan** 탓으로 돌렸을 가능성이 큼 ([Vulcan 위키](https://en.wikipedia.org/wiki/Vulcan_(hypothetical_planet)))  
  - 데이터 누출을 완전히 막는 건 거의 불가능함  
    잘못 분류된 문서, 주석, 메타데이터 등으로 **지식이 새어 들어갈 위험**이 큼  
  - 근본적으로 옛 데이터만으로는 SoTA 모델을 훈련하기엔 양이 부족함  
  - 이 실험이 진짜 가능하려면 GPT-5급 모델이 필요함  
    방대한 텍스트, 대규모 파라미터, 그리고 19세기식 **RLHF** 과정이 요구됨  
  - 이런 실험은 LLM이 **창의적 사고를 하는지, 단순 복기만 하는지**를 가늠하는 진짜 시험이 될 것임  

- 1800~1875년 데이터로 훈련한 모델과 1800~2025년 데이터로 훈련한 모델을 비교해  
  두 확률 분포의 차이를 이용해 2040년 예측을 시도하는 아이디어를 제시함  
  실제로는 정확한 예측이 어렵겠지만, **확률 분포 보간/외삽** 실험으로는 재미있을 것 같음  
  - 혹시 그게 그냥 **Gen Alpha 세대의 속어**처럼 들릴 수도 있지 않을까 하는 농담도 나옴  

- 흥미로운 개념이지만, 당시의 기록 데이터는 **지식 엘리트 중심으로 편향**되어 있음  
  오늘날처럼 누구나 기록을 남기던 시대가 아니었음  
  현대 모델은 수십 TB의 텍스트로 훈련되지만, 19세기 데이터는 훨씬 적고 다양성도 부족함  
  그래서 “1834년에 무슨 일이 있었나?” 같은 질문에 신문 기사체로 답하는 건 자연스러운 결과임  
  - 하지만 이런 **일관된 편향**이 오히려 장점일 수도 있음  
    지금의 LLM은 너무 많은 사람의 생각이 섞여 **잡음이 많은 출력**을 내기도 함  
    특정 시대의 일관된 관점으로 훈련된 모델은 예측 가능한 **응답 스타일**을 가질 수 있음  
  - 인위적인 제약을 통해 드러나는 편향은, 오히려 최신 모델의 **숨겨진 편향**을 드러내는 데 도움을 줌  
  - 현대 모델은 영어 중심, 서구적, 1990년대 이후의 시각에 치우쳐 있음  
    게다가 **정렬(alignment)** 과정에서 공급자의 가치관이 반영됨  
    반면, 과거 데이터 기반 모델은 시대의 편향을 “우연히” 반영하는 셈임  

- 최소한 이런 모델은 **이모지 범람**은 막을 수 있을 듯함  
  다만 토크나이징이 어떻게 달라질지 궁금함  
  코딩 지식은 없겠지만, 현대 LLM과 결합해 **19세기 스타일의 코드 설명**을 생성할 수 있을지도 모름  
  과거의 **스타일 전이 모델**처럼 레이어를 섞는 방식이 가능할지 고민 중임  
  - “그냥 두 모델이 서로 대화하게 하면 되지 않을까?”라는 제안도 나옴  

- 정보화 이전 문서만으로 모델을 훈련시켜, 그 모델에게 **‘컴퓨터란 무엇인가’** 를 가르쳐보는 실험이 귀엽게 느껴짐  
  하지만 현재 출력은 ChatGPT보다는 **Markov chain 수준**에 가까움  

- 최근 HN에 올라온 또 다른 “**시간 잠금 LLM 프로젝트**”가 떠오름  
  결과물은 세련됐지만, **오용과 오해**를 막는 방법을 고민 중이라고 함  
  [관련 스레드](https://news.ycombinator.com/item?id=46319826) 참고  

- 만약 이 모델이 일관된 출력을 낸다면, LLM 훈련에 **저작권 자료가 필수라는 주장**을 반박할 수 있을 것임  
  하지만 현재로선 그 정도 수준은 아닌 듯함  
  - 참고로 공개 데이터만으로도 꽤 괜찮은 모델을 만든 사례가 있음  
    [The Common Pile v0.1](https://arxiv.org/pdf/2506.05209)은 8TB의 공개 텍스트로 **7B 파라미터 모델**을 구축했음  

- 나도 비슷한 실험을 해봤음: [transformer 프로젝트](https://github.com/hallvardnmbu/transformer)  
  성경, 돈키호테, 카프카 등 서로 다른 문헌으로 개별 모델을 훈련했음  
  (가사 생성기와 번역기도 있었지만, 품질은 별로였음)
