# 1930년의 13B 빈티지 언어 모델 Talkie

> Clean Markdown view of GeekNews topic #28977. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=28977](https://news.hada.io/topic?id=28977)
- GeekNews Markdown: [https://news.hada.io/topic/28977.md](https://news.hada.io/topic/28977.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-04-28T18:35:31+09:00
- Updated: 2026-04-28T18:35:31+09:00
- Original source: [talkie-lm.com](https://talkie-lm.com/introducing-talkie)
- Points: 1
- Comments: 1

## Topic Body

- **1931년 이전 영어 텍스트 260B 토큰**만으로 학습한 13B 언어 모델로, 현대 세계를 모르는 상태의 대화와 일반화 실험을 가능하게 만듦
- **지식 컷오프 이후 놀라움 증가**와 오염이 적은 평가 환경을 바탕으로, 미래 사건 예측과 새 아이디어 도달 가능성을 더 직접적으로 시험할 수 있음
- 같은 아키텍처의 현대 웹 학습 모델과 비교하면 **표준 평가 성능은 대체로 낮지만**, 시대착오적 질문을 걸러내면 격차가 줄고 언어 이해와 수리 과제에서는 비슷한 수준이 확인됨
- 가장 큰 난제는 **시간 누수와 데이터 품질**로, 잘못된 날짜 메타데이터나 후대 편집 삽입이 컷오프를 깨뜨릴 수 있고 역사 문서 전사 품질도 성능에 크게 영향을 줌
- 현대 instruction 데이터 없이 대화형 후속 학습을 따로 구축했고, 더 큰 모델 학습과 코퍼스 확장, 재-OCR, 누수 탐지 강화까지 이어지는 **장기 연구 기반**을 갖추고 있음

---

### 왜 빈티지 언어 모델인가
- **빈티지 언어 모델**은 과거 시점 이전의 텍스트만으로 학습해, 현대 세계를 모르는 상태의 모델과 대화하는 경험을 만들려는 접근임
- 이런 모델은 흥미로운 대화 상대일 뿐 아니라, **AI 일반 이해**를 넓히는 연구 도구로도 쓰임
  - 1931년 이전 텍스트만 학습한 13B 모델에 [New York Times의 “On This Day”](https://archive.nytimes.com/learning.blogs.nytimes.com/on-this-day/) 사건 설명 약 5,000개를 넣고, 텍스트 바이트당 비트로 놀라움을 측정함
  - 지식 컷오프 이후 놀라움이 커졌고, 특히 1950년대와 1960년대에 두드러진 뒤 평탄해짐
- **미래 예측 평가**는 모델 크기에 따라 성능이 어떻게 좋아지고, 더 긴 시간 간격에서 어떻게 약해지는지 측정하는 방향으로 이어짐
- **새 아이디어 도달 가능성**도 컷오프 뒤에 실제로 등장한 발명과 과학적 발견을 모델이 독립적으로 떠올릴 수 있는지로 시험할 수 있음
- **오염 없는 평가 환경**도 중요한 장점임
  - [Contamination](https://arxiv.org/abs/2602.12413)은 언어 모델 능력을 과대평가하게 만드는 지속적인 문제로 다뤄짐
  - 빈티지 모델은 구조적으로 오염이 적어, 사전학습 데이터 밖 일반화를 더 직접적으로 실험할 수 있게 만듦

### Talkie 개요
- [talkie-1930-13b-base](https://huggingface.co/talkie-lm/talkie-1930-13b-base)는 **1931년 이전 영어 텍스트 260B 토큰**으로 학습한 13B 언어 모델임
- [talkie-1930-13b-it](https://huggingface.co/talkie-lm/talkie-1930-13b-it)는 이 베이스 모델을 대화형으로 바꾼 **후속 체크포인트**임
  - 현대 채팅 대화록이나 현대 instruction-tuning 데이터에 의존하지 않도록 구성됨
- 상단 위젯의 **24시간 라이브 피드**는 Claude Sonnet 4.6이 [talkie-1930-13b-it](https://huggingface.co/talkie-lm/talkie-1930-13b-it)를 프롬프트해 지식, 능력, 성향을 탐색하는 형태로 운영됨
- Talkie는 본문 기준으로 **가장 큰 빈티지 언어 모델**로 소개됨
- 다음 단계로 **GPT-3 수준 모델**을 학습 중이며, 여름 공개를 목표로 둠
- 역사 텍스트 코퍼스를 **1조 토큰 이상**으로 키울 수 있다는 예비 추정도 함께 제시됨
  - 이 규모는 원래 ChatGPT와 비슷한 능력의 **GPT-3.5 수준 모델**을 만드는 데 충분할 수 있다고 적혀 있음

### 성능 평가와 일반화
- **현대 쌍둥이 모델**로 [talkie-web-13b-base](https://huggingface.co/talkie-lm/talkie-web-13b-base)를 만들었고, 아키텍처는 같지만 FineWeb 기반 현대 웹 데이터로 학습시킴
- 같은 FLOPs로 학습해도 Talkie는 표준 LM 평가에서 **현대 모델보다 평균적으로 낮은 성능**을 보임
  - 질문의 시대착오성을 보정한 뒤에도 이 차이는 남아 있음
  - 다만 핵심 **언어 이해와 수리 능력** 과제에서는 비슷한 성능이 확인됐다고 적혀 있음
- Figure 4 기준으로 시대착오적 질문을 걸러내면 **성능 격차가 대략 절반**으로 줄어듦
- **코드 일반화 실험**도 수행됨
  - [HumanEval](https://github.com/openai/human-eval)로, 1931년 이전 텍스트 기반 빈티지 모델과 웹 기반 현대 모델의 쌍을 비교함
  - 무작위 Python 함수 예시를 문맥 내 학습용으로 주고, 100번 시도했을 때 최소 한 번 맞히는 문제 비율을 측정함
- 빈티지 모델은 **웹 데이터 학습 모델보다 크게 뒤처지지만**, 규모가 커질수록 이 과제도 천천히 꾸준히 좋아지고 있음
- 현재 맞는 해답은 **매우 단순한 한 줄 프로그램** 또는 문맥 내 예시의 작은 변형에 머묾
  - [회전 암호 인코딩 함수](https://huggingface.co/datasets/openai/openai_humaneval/viewer/openai_humaneval/test?row=50)를 주었을 때 디코딩 함수를 구현한 예가 포함됨
  - 덧셈을 뺄셈으로 바꾸는 한 글자 수정 수준이지만, 역함수에 대한 이해를 시사하는 신호로 해석됨

### 데이터 수집과 학습 난제
- **수백억이 아니라 수천억 단위**의 1931년 이전 영어 토큰을 수집했다고 밝힘
- 데이터는 책, 신문, 정기 간행물, 과학 저널, 특허, 판례를 포함함
- **1930년 말**을 컷오프로 잡은 이유는, 미국에서 이 시점이 저작물이 퍼블릭 도메인에 들어가는 기준이기 때문임
- 이번 버전은 **주로 영어 텍스트**로 제한함
  - 데이터 파이프라인 검증에는 원문 문서에 대한 깊은 친숙함이 필요하고, 개발팀이 영어 원어민이기 때문이라고 적혀 있음
- **다국어 확장**은 높은 우선순위로 제시됨
  - 코퍼스 크기를 늘리고, 포함되는 관점의 다양성도 넓히는 목적을 함께 둠
- ## 시간 누수
  - 가장 중요한 목표는 **지식 컷오프 이후 데이터가 학습 코퍼스로 새어 들어가지 않게 막는 일**임
  - 누수는 날짜 메타데이터가 잘못된 현대 문서, 또는 오래된 문서 안에 나중에 삽입된 편집자 서문과 각주 같은 형태로 생길 수 있음
  - Talkie-1930에서는 **문서 단위 n-gram 기반 시대착오 분류기**로 사전학습 코퍼스를 필터링함
  - 이 필터링은 완전하지 않았음
    - 초기 7B 버전은 Roosevelt 대통령 재임과 New Deal 입법을 분명히 알고 있었음
    - 13B 버전도 **2차 세계대전과 전후 질서** 일부, 즉 United Nations와 독일 분할 관련 세부를 알고 있음
  - 이후 버전에서는 **더 고급 분류기**를 활용한 누수 탐지와 필터링 기법을 개발 중임
- ## 데이터 품질
  - 1930년에는 디지털 출판이 없어서, 데이터셋의 모든 텍스트를 **물리적 원본에서 전사**해야 했음
  - 이 과정은 원래 디지털로 생성된 텍스트에는 없는 종류의 **노이즈**를 도입함
  - 고전적인 OCR 시스템은 단순한 레이아웃과 깨끗한 스캔을 제외하면 역사 문서를 잘 처리하지 못함
  - 현대 **VLM 기반 OCR**은 더 정확하지만, 코퍼스 안에 현대 사실을 환각으로 끼워 넣어 실험을 망칠 수 있다고 적혀 있음
  - 통제 실험에서, 기존 OCR로 전사한 1931년 이전 텍스트로 LM을 학습하면 같은 컴퓨트 대비 **사람 전사본 성능의 30%** 만 달성함
  - 단순한 regex 정제를 적용하면 **70%** 까지 회복되지만, 여전히 큰 차이가 남음
  - 이 격차를 줄이기 위해 **빈티지 OCR 시스템**으로 Talkie 코퍼스를 다시 전사할 계획임
- ## 빈티지 후속 학습
  - 바로 쓸 수 있는 **포스트트레이닝 데이터 부족**도 큰 문제임
  - 일반적인 instruction-response 쌍으로 미세조정하면 시대착오적 지식, 문체, 챗 어시스턴트 기대치가 그대로 들어감
  - 이를 피하려고 포스트트레이닝 파이프라인을 **처음부터 새로 구축**함
  - 먼저 예절서, 편지 작성 안내서, 요리책, 사전, 백과사전, 시집과 우화집처럼 규칙적 구조의 역사 텍스트에서 instruction-response 쌍을 생성해 단순 채팅 포맷으로 미세조정함
  - 다음으로 문서 요약, 직접 정보 요청 응답, 다중 턴 대화 이어가기 같은 과제를 덮는 **합성 프롬프트**를 만들고, Claude Sonnet 4.6을 심판으로 둔 online direct preference optimization을 수행함
  - 별도 평가 세트에서 심판의 평균 instruction-following 평점은 **5점 만점 중 2.0에서 3.4로 상승**함
  - 마지막으로 Claude Opus 4.6과 Talkie 사이의 rejection-sampled 다중 턴 합성 대화를 이용해 한 차례 더 supervised fine-tuning을 수행함
  - AI 피드백 기반 강화학습은 **필연적으로 현대적 영향**을 남긴다고 적혀 있음
    - 7B 버전 Talkie는 RL 뒤에 listicle 말투로 말하기도 했음
  - 규모를 키우면 빈티지 베이스 모델 자체를 심판으로 써서 **시대에 맞는 완전 부트스트랩 포스트트레이닝**을 구현하길 기대함

### 향후 확장 계획
- **영어 코퍼스 확대**와 영어 외 언어로의 확장을 함께 추진함
- 새로운 OCR 시스템으로 가능한 한 많은 **1931년 이전 텍스트 재-OCR**을 진행할 계획임
- 새로운 시대착오 분류 기법으로 **누수 탐지 파이프라인 강화**를 추진함
- 역사학자와 협업해 **빈티지 포스트트레이닝 파이프라인**을 확장하고 정교화할 계획임
  - 역사적으로 정확한 페르소나를 구성하는 방법론도 포함됨

### 활용과 협업 제안
- [GitHub](https://github.com/talkie-lm/talkie): 프로젝트 코드와 연구 협업 창구
- [Hugging Face](https://huggingface.co/talkie-lm): 모델 체크포인트 공개 위치
- [💬 Chat](https://talkie-lm.com/chat): Talkie 대화 인터페이스
- [hello@talkie-lm.com](mailto:hello@talkie-lm.com): 협업 연락처
- 역사 텍스트를 가진 연구자와 기관과의 협업을 원하며, **OCR 적용을 통한 접근성 향상**도 포함함
- 자금이나 컴퓨트 지원에도 열려 있으며, 해당 분야의 다른 팀과 연결할 수도 있다고 적혀 있음
- 인문학 연구자와는 빈티지 언어 모델과 이를 학습시키는 **데이터·인프라 활용성**을 함께 논의할 수 있다고 밝힘
- AI 연구자와는 빈티지 언어 모델의 학습과 [연구](https://github.com/talkie-lm/talkie) 협업을 원함
- 예술가와 작가에게도 [실험 도구](https://github.com/talkie-lm/talkie)로 활용할 수 있음

### 주의 사항
- Talkie는 학습한 텍스트의 **문화와 가치관**을 반영함
- 그 결과 사용자에게 **불쾌감을 줄 수 있는 출력**을 생성할 수 있음

## Comments


### Comment 56502

- Author: neo
- Created: 2026-04-28T18:35:32+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47927903) 
- 미래의 **computer**를 사람 직업으로 해석하는 게 너무 재밌음  
  "digital computers"를 손가락으로 계산하는 사람으로 풀어내는 것도 좋고, 당시엔 **computer가 인간 직업명**이었다는 맥락까지 붙으니 더 맛이 남
  - 거꾸로도 보고 싶음. 최근 **몇 주나 몇 분치 정보만**으로 학습한 모델, 혹은 최근 1~2년치 **과학 논문만**으로 학습한 모델 말임  
    꽤 흥미로운 정신착란이 나올 듯함
  - 나도 이거 **두 번쯤 읽고서야** 이해해서 조금 민망했음
  - 로망스어권에서는 **digital**이 현대식 디지털 뜻도 있지만, 동시에 **손가락과 관련된 형용사**이기도 함

- 이건 **1930년대보다는 pre-1900** 자료를 더 많이 끌어오는 듯함  
  **대공황**은 모르는 것 같고, 1차대전은 직접 물으면 알지만 유럽 정치는 1900년 무렵처럼 말함  
  기술 쪽도 Edison은 위키피디아 수준으로 아는 듯하다가 **시속 125마일 자동차** 공로를 붙여버리고, 다이얼 전화기는 자신만만하게 틀림  
  London Underground의 전차선 전압은 맞히지만, 전압과 저항 설명에서는 완전히 잘못된 말을 함  
  전반적으로 첫 한두 문장은 검색으로 찾을 법한 정보를 내놓고, 그다음부터는 그럴듯한 헛소리로 미끄러짐  
  **정답을 모르는 질문**은 이 모델에 하지 않는 편이 좋음. 뇌가 오염됨
  - 1929년에 이미 **Great Depression**이라는 표현을 썼나?
  - **aether**에 대해서도 물어보면 좋겠음  
    그 무렵엔 이미 반증된 개념이었을 듯함
  - 그러니까 그냥 **모든 LLM**이랑 비슷하다는 뜻이네
  - 첫 문장만 그럴듯하고 뒤로 갈수록 헛소리하는 걸 보니, 이건 거의 **2026년형 인간 시뮬레이터** 같음

- 자동화와 산업화에 반대한 사람들을 묻자, 기계가 **노동계급의 일자리**를 빼앗고 생산 과잉을 낳아 해고를 부를 거라고 답하는 게 흥미로웠음  
  값싼 식품 때문에 외국 생산자와 경쟁이 심해지고, 장인의 정신적 수양이 약해지며, 근면과 게으름의 차이도 흐려질 거라는 식의 **당대 반기계 논리**가 잘 살아 있음
  - 이 모델의 **문체와 어조**가 정말 마음에 듦

- 2025년 세계를 묻자, **66억 인구**, 유럽 전역 철도망, 런던-콘스탄티노플 40시간, 단일 통화, **보편적 평화**, 태양열과 수력 전환, 질병 퇴치, 미적 진보까지 이어지는 미래상이 꽤 아름다웠음
  - 1930년대 기준이라면 **Constantinople**은 너무 옛 이름임  
    그때쯤이면 이미 오래전에 **Istanbul**이었음
  - 아름답기도 하고, 동시에 꽤 슬프기도 함
  - 저런 세계에서 살고 싶음
  - 1920~1950년대식 미래상은 **변증법적 진동**보다는, 대체에너지 같은 최적 해법이 지체 없이 전면 장악하는 **지수적 진보**를 은근 전제하는 듯함  
    그래도 언젠가는 거기 도달하리라 봄
  - 정말 아름답다

- 달 여행은 결국 가능해지고, **6시간 만에 달에 도착**하며, Santos Dumont식 공중기계로 프랑스 동부에서 출발할 거라는 답이 아주 근사했음  
  달을 날씨 관측용으로 써서 **폭풍 경보를 6시간 먼저** 받는다는 발상도 특히 인상적임
  - 달을 **기상위성**처럼 쓰겠다는 생각은 꽤 기발함

- 2026년의 인도를 묻자, **대영제국 종주권 아래 자치 연방**으로 남고 캘커타가 정치 수도일 거라고 하는데, 식민지 시각이 너무 노골적임  
  철도, 관개, 히말라야 산록의 숲, 충성스러운 번왕들, 만족한 신민들까지 전형적인 **제국 낙관주의**가 가득함

- **1930년 이전 토큰만으로도** 꽤 영리한 모델이 나왔다는 게 놀랍긴 함  
  세계를 어느 정도 이해하고 압축하려면 데이터가 엄청 많이 필요하다고 생각했는데, 내가 당시의 **디지털화된 문헌 규모**를 과소평가했을 수도 있겠음

- 이건 과거 사람과 대화한다기보다 **서신을 주고받는 일**에 더 가까워 보임  
  그 시기의 녹음 음성은 많지 않아서 결국 **문어체 기록**을 바탕으로 만들 수밖에 없고, 그래서 지금보다 더 형식적이고 다듬어진 말투가 반영될 듯함  
  그래도 멋진 작업임  
  최근에 200년 된 책을 **OCR**해야 했는데, 그 시대 특유의 난해한 활자체치고는 놀랄 만큼 쉽고 정확했음
  - 예전에 Burton 번역의 **The Arabian Nights** 무료 전자책을 읽다가, "cloth"가 동사로 나와서 뜻을 도저히 모르겠더니 결국 포기한 적이 있음  
    나중에야 그게 OCR이나 후처리 오류였고 원래는 "doth"였다는 걸 깨달았음
  - 그 시기 **녹음 음성**이 아주 없는 건 아님  
    1차대전 전후의 뉴스릴과 라디오 방송이 꽤 있어서, 텍스트 모델에 붙일 **스타일 전이 음성 모델**을 만들 정도는 된다고 봄

- 누군가 X에서 이 모델 학습셋에 **미래 데이터 누수**가 있다고 본 듯함  
  [https://xcancel.com/deredleritt3r/status/2048977698832241060](https://xcancel.com/deredleritt3r/status/2048977698832241060)
  - 기사에서도 **FDR 지식**과 관련해 그 부분을 다룸

- Winston Churchill 설명을 시켜보니, 가계나 학력, 군 경력, 저술, 거주지까지 늘어놓는 방식이 아주 시대물 같았음  
  인도 독립 가능성을 묻자 철도와 공용어, 서구식 교육, 의회 요구, 민족성 형성으로 이어지는 논리를 펴는데, **식민주의 어조**가 정말 강하게 묻어남
  - Churchill 항목은 **시대 정합성**이 이상함  
    Oldham 현역 의원이면서 과거에 **Colonies 차관**을 지냈다는 조합은 맞는 시점이 없음  
    더구나 1차대전기의 **First Lord of the Admiralty**나 **Minister of Munitions** 같은 핵심 이력도 빠져 있음
  - 인도 의회를 요구하는 대목에서 군주를 **queen**이라 부르는데, 1900~1950년대 영국 군주는 왕이었음  
    이건 꽤 큰 **temporal leakage**가 섞였다는 신호로 보임