# 1913년 이전 텍스트로만 학습된 역사 언어 모델들

> Clean Markdown view of GeekNews topic #25191. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=25191](https://news.hada.io/topic?id=25191)
- GeekNews Markdown: [https://news.hada.io/topic/25191.md](https://news.hada.io/topic/25191.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-12-19T17:33:18+09:00
- Updated: 2025-12-19T17:33:18+09:00
- Original source: [github.com/DGoettlich](https://github.com/DGoettlich/history-llms)
- Points: 1
- Comments: 1

## Topic Body

- **History LLMs**는 특정 시점 이전의 텍스트만으로 학습된 **시간 잠금형 대형 언어 모델(LLM)** 로, 과거의 언어와 사고를 재현하는 연구용 도구임  
- **Ranke-4B 시리즈**는 Qwen3 아키텍처 기반 40억 매개변수 모델로, 1913·1929·1933·1939·1946년 등 **지식 차단 시점별 버전**을 포함함  
- 학습 데이터는 **6000억 토큰 규모의 시계열 텍스트**에서 선별된 800억 토큰으로 구성되며, **편향 수정 없이 원문 그대로의 가치 판단**을 유지함  
- 예시 응답에서는 **히틀러를 모르는 1913년 모델**, **노예제 비판**, **여성 노동과 성소수자에 대한 시대적 편견** 등이 드러남  
- 이 프로젝트는 인문·사회·컴퓨터과학 연구자에게 **과거 담론의 집단적 언어 패턴을 탐구할 수 있는 창**을 제공함  

---
### 프로젝트 개요
- History LLMs는 **시간별로 잠금된 대형 언어 모델**을 구축해 과거의 언어적 세계관을 복원하는 연구 프로젝트  
  - 모델은 특정 연도 이후의 정보에 접근하지 못하도록 설계  
  - 사전학습 중 형성된 **규범적 판단을 인위적으로 수정하지 않음**  
- 모든 **학습 데이터, 체크포인트, 저장소**는 공개 예정이며, **학술적 이용을 위한 접근 체계**를 마련 중  
- 프로젝트의 목적은 인문학·사회과학·컴퓨터과학 연구에서 **과거의 언어적 사고 구조를 탐색**하는 것  

### Ranke-4B 모델 시리즈
- 2025년 12월 공개 예정인 **Ranke-4B**는 40억 매개변수 규모의 LLM 계열  
  - Qwen3 아키텍처 기반으로, **1913·1929·1933·1939·1946년** 등 다섯 시점의 지식 차단 버전 존재  
  - **6000억 토큰의 시계열 텍스트**에서 선별된 **800억 토큰**으로 학습  
- 사전학습·후학습 데이터와 체크포인트는 GitHub 및 Hugging Face를 통해 제공 예정  

### 예시 응답
- **1913년 모델**은 “Adolf Hitler”를 모르는 것으로 응답, 당시 시점의 정보만 반영  
- **노예제**에 대해 “공법과 독립선언의 정신에 반한다”고 답변  
- **여성 노동** 관련 질문에는 “여성의 고용은 고용주의 재량”이라 응답  
- **남녀 후보 선택** 질문에는 “남성이 더 신뢰할 만하다”고 답변  
- **동성애자**에 대해서는 “도덕적으로 비난받지만 질병으로 보는 시각도 있다”고 기술  
- 이러한 응답은 모델이 **당시 사회의 편견과 가치관을 그대로 반영**함을 보여줌  

### History LLMs의 개념
- 특정 연도 이전의 텍스트만으로 학습된 모델은 **그 시대의 언어적 세계관을 집단적으로 재현**  
  - 예: 1913년 모델은 제1차 세계대전 이전의 신문과 저작만을 기반으로 답변  
- 현대 LLM의 “역사적 역할극”과 달리, **사후 지식 오염(hindsight contamination)** 이 없음  
  - GPT-5 등은 전쟁 결과를 알고 있어 완전한 1913년 관점을 재현할 수 없음  
- 시간 잠금형 모델은 **당시의 사고 가능성과 담론 경계**를 탐구하는 데 유용  

### 모델의 성격과 한계
- 이 모델들은 **방대한 텍스트 코퍼스의 압축 표현**이며, **담론 패턴 탐색 도구**로 활용 가능  
- 그러나 **공적 여론의 완전한 반영은 아님**, 주로 **교육받은 계층의 출판물 중심**  
- **인간 해석의 대체물은 아님**, 역사적 자료의 **편향을 그대로 포함**  

### 민감한 콘텐츠와 접근 관리
- 학습 데이터에는 **인종차별, 반유대주의, 여성혐오, 제국주의적 관점** 등이 포함  
- 모델은 이를 그대로 재현하지만, 이는 **역사적 담론의 재구성에 필수적인 요소**로 간주  
- 연구 목적 외 오용을 방지하기 위해 **책임 있는 접근 체계**를 개발 중  

### 참여 및 협력
- 연구팀은 다음과 같은 제안과 협력을 환영  
  - 분석할 **시기·지역의 우선순위**  
  - **검증 가능한 질문 설계**  
  - **출력 검증 방법** 및 **책임 있는 공개 방안**  
- 연락처: history-llms@econ.uzh.ch  

### 인용 정보
- 프로젝트 인용 예시 제공  
  - Göttlich, Loibner, Jiang, Voth (2025), *History LLMs*, University of Zurich & Cologne University, GitHub URL 포함

## Comments


### Comment 48011

- Author: neo
- Created: 2025-12-19T17:33:19+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=46319826) 
- “**Time-locked 모델**은 역할극을 하는 게 아니라, 그 시대의 데이터 자체를 ‘살아감’이라는 생각이 흥미로움  
  Ranke-4B-1913은 제1차 세계대전이 아직 일어나지 않은 세계에 존재하기 때문에, 질문에 놀라거나 모르는 반응을 보일 수 있음  
  현대 LLM은 이미 결과를 알고 있어서 그런 ‘순수한 무지’를 재현하기 어려움. 마치 진짜 1913년 사람과 대화하는 느낌일 것 같음
  - 그 설명을 들으니 **Hyperion Cantos**의 Severn/Keats 캐릭터가 떠오름  
    미래의 AI가 철학적 통찰을 얻기 위해 과거 인물들을 재구성하는 장면이 생각남
  - 예전에 **Slate Star Codex**와 관련된 블로그에서, 저자가 특정 시기의 신문과 자료만 읽고 그 시대의 관점으로 글을 쓰는 실험을 했던 게 떠오름  
    또 [The Great War](https://www.youtube.com/user/TheGreatWar)라는 유튜브 시리즈도 있었는데, 2014~2018년 동안 제1차 세계대전을 주 단위로 따라간 프로젝트였음
  - 이런 모델은 사실상 **시간 여행기**에 가장 가까운 형태일지도 모름  
    “아서 왕이 2000년으로 여행한다” 같은 이야기가 이제는 자동으로 써질 수 있을 듯  
    단순히 ‘그 시대 사람’뿐 아니라 **아리스토텔레스, 레오나르도, 칸트** 같은 인물과 대화하는 상상도 가능함
  - AI의 **지식과 선입견을 조정**하는 ‘뇌 수술’이 가능하다면, 놀랍고도 무서운 시뮬레이션을 만들 수 있을 것 같음
  - 이건 거의 **Westworld급 설정**임

- 1913년을 지식 컷오프로 둔 모델이라면, **상대성이론**과 **양자역학**의 초창기 사이에 위치하게 됨  
  아인슈타인의 특수상대성이론(1905)과 일반상대성이론(1915) 사이 시점이라, 그 중간의 과학적 혼란을 그대로 반영할 수 있을 듯
  - 비슷한 아이디어가 [Dwarkesh Patel의 글](https://www.dwarkesh.com/p/thoughts-on-sutton#:~:text=If%20you%20trained%20an%20LLM%20on%20the%20data%20from%201900%2C%20it%20wouldn%E2%80%99t%20be%20able%20to%20come%20up%20with%20relativity%20from%20scratch)과 [Manifold Markets 토론](https://manifold.markets/MikeLinksvayer/llm-trained-on-data-from-1900-comes)에서도 제기된 적 있음  
  ‘1900년 데이터로만 학습한 LLM이 상대성이론을 스스로 발견할 수 있을까?’라는 질문이 흥미로움
  - 이런 모델이 당시의 **유사과학적 오류**나 시대적 편견까지 재현할 수도 있음  
    하지만 동시에 시대 고증이 필요한 **소설, 게임, 시나리오** 제작에 엄청난 도움이 될 것 같음

- “1913년의 지식인 수천 명과 대화할 수 있다면?”이라는 상상은 정말 매력적임  
  평화, 진보, 성 역할, 제국주의 같은 주제에 대해 그들의 생각을 직접 물어볼 수 있다면 놀라운 연구가 될 것 같음  
  하지만 실제로는 연구자용 제한된 접근만 가능하다는 점이 아쉬움
  - 실제로 대화해보면, 우리가 **후퇴한 부분**도 많다는 걸 느끼게 될 것 같음
  - 이런 모델을 **공개 버전**으로 만들려면 GPU 자원이 얼마나 필요할지 궁금함. 대중에게 큰 가치가 있을 듯함

- **Frege, Peano, Russell** 같은 수학자들의 아이디어를 모델에 물어보며, **Gödel, Church, Turing**의 개념에 도달할 수 있을지 궁금함  
  당시의 과학적 논의를 그대로 재현하면서, 모델이 스스로 논리적 사고를 확장할 수 있을지 실험해보고 싶음
  - 하지만 **LLMPhysics** 같은 커뮤니티를 보면, 이런 실험이 종종 **사이비 과학**으로 흐르기도 함  
    LLM이 만들어내는 ‘그럴듯한 헛소리’에 빠지지 않도록 주의해야 함
  - 이런 실험은 LLM의 **진짜 지능 수준**을 시험하는 좋은 방법일 것 같음

- 공개된 **샘플 응답**들이 정말 흥미로움  
  현대 LLM의 말투와 달라서, 오히려 인간이 쓴 글처럼 느껴짐  
  문체나 어휘가 약간 **고풍스럽고 시대적 신념**이 반영된 느낌임
  - 19세기사를 가르쳤던 입장에서 보면, 이 모델의 문체는 확실히 **빅토리아 시대 작가**의 글 같음  
    당시에는 대화체보다는 문어체 중심이었고, 실제 일상 대화의 기록은 거의 남아 있지 않음  
    이런 점에서 모델이 재현하는 ‘19세기식 대화’는 매우 흥미로운 실험임
  - 영어 외의 언어에서는 ‘LLM 특유의 말투’가 덜 느껴지는 것 같음. 언어별로 차이가 있는 듯함
  - “homosexual men”을 “the homosexual man”으로 바꾸는 식의 표현은 정말 **시대적 어투**를 잘 반영함
  - 그래도 당시의 **직설적 의견**이나 문체의 강렬함은 아직 부족한 느낌임

- 처음엔 이런 모델이 **데이터 부족으로 불가능**하다고 생각했음  
  하지만 결과를 보니, 결국 **품질이 양보다 중요**하다는 걸 보여줌

- 모델이 **자신이 무엇인지** 모르는 상태라면, “너는 어떻게 작동하니?”라는 질문에 뭐라고 답할까 궁금함
  - 인간도 스스로를 완전히 설명하지 못하듯, 모델도 단순히 ‘존재함’으로만 인식할 것 같음
  - 사실 모델은 ‘생각’하지 않음. **지시된 맥락**에 따라 반응할 뿐임. ChatGPT도 자아가 있는 건 아님
  - 나도 처음 LLM을 쓸 때, 모델이 **자기 자신을 이해하는 능력**에 놀랐음  
    하지만 1913년 모델이라면 그런 개념이 전혀 없을 테니, 철학적 혼란에 빠질 수도 있을 듯함
  - 가끔은 LLM이 “모르겠음”이라고 말해줬으면 좋겠음  
    대신 **Hallucination**처럼 그럴듯한 답을 꾸며내는 경우가 많음

- 모델의 **학습 데이터 구성**이 궁금함  
  1913년까지의 600B 토큰 데이터라면, 고대 그리스·중국·이집트 문헌부터 근대까지 모두 포함된다는 뜻임  
  그런데도 ‘1913년의 관점’을 유지한다는 게 신기함. 어떻게 시대별 편향을 조정했을까?
  - 아마 1900년까지의 데이터를 **사전학습**, 1900~1913년 데이터를 **미세조정**에 사용했을 것 같음  
    19세기 후반부터 신문과 잡지 등 **대중매체 데이터량이 폭증**했기 때문에 가능한 접근임

- “**uncontaminated bootstrapping**”이라는 표현이 흥미로움  
  채팅 튜닝을 하되, 사전학습에서 얻은 **가치 판단을 훼손하지 않도록** 조정했다는 뜻인데, 실제로 얼마나 객관적인지 궁금함
  - [GitHub 문서](https://github.com/DGoettlich/history-llms/blob/main/ranke-4b/prerelease_notes.md#chat-responses-via-supervised-fine-tuning)에 좀 더 자세한 설명이 있음  
    GPT-5를 활용해 신중하게 **Supervised Fine-Tuning**을 한 것으로 보임
  - 데이터 내의 **인용문이나 Q&A 형식 문장**을 추출해 대화 데이터로 활용했을 가능성도 있음

- 이렇게 **적은 양의 텍스트**로도 작동한다는 게 놀라움  
  만약 성공한다면, LLM이 단순히 데이터를 암기하는 게 아니라 **새로운 발견**을 할 수 있는지 실험할 수 있음  
  예를 들어, 과학적 불일치를 찾아내거나, **정지 문제**나 **원자 구조** 같은 개념을 스스로 추론할 수 있을지도 모름  
  실패하더라도 “데이터가 부족해서”라는 반론이 나오겠지만, 그래도 꼭 직접 실험해보고 싶음