1930년의 13B 빈티지 언어 모델 Talkie
(talkie-lm.com)- 1931년 이전 영어 텍스트 260B 토큰만으로 학습한 13B 언어 모델로, 현대 세계를 모르는 상태의 대화와 일반화 실험을 가능하게 만듦
- 지식 컷오프 이후 놀라움 증가와 오염이 적은 평가 환경을 바탕으로, 미래 사건 예측과 새 아이디어 도달 가능성을 더 직접적으로 시험할 수 있음
- 같은 아키텍처의 현대 웹 학습 모델과 비교하면 표준 평가 성능은 대체로 낮지만, 시대착오적 질문을 걸러내면 격차가 줄고 언어 이해와 수리 과제에서는 비슷한 수준이 확인됨
- 가장 큰 난제는 시간 누수와 데이터 품질로, 잘못된 날짜 메타데이터나 후대 편집 삽입이 컷오프를 깨뜨릴 수 있고 역사 문서 전사 품질도 성능에 크게 영향을 줌
- 현대 instruction 데이터 없이 대화형 후속 학습을 따로 구축했고, 더 큰 모델 학습과 코퍼스 확장, 재-OCR, 누수 탐지 강화까지 이어지는 장기 연구 기반을 갖추고 있음
왜 빈티지 언어 모델인가
- 빈티지 언어 모델은 과거 시점 이전의 텍스트만으로 학습해, 현대 세계를 모르는 상태의 모델과 대화하는 경험을 만들려는 접근임
- 이런 모델은 흥미로운 대화 상대일 뿐 아니라, AI 일반 이해를 넓히는 연구 도구로도 쓰임
- 1931년 이전 텍스트만 학습한 13B 모델에 New York Times의 “On This Day” 사건 설명 약 5,000개를 넣고, 텍스트 바이트당 비트로 놀라움을 측정함
- 지식 컷오프 이후 놀라움이 커졌고, 특히 1950년대와 1960년대에 두드러진 뒤 평탄해짐
- 미래 예측 평가는 모델 크기에 따라 성능이 어떻게 좋아지고, 더 긴 시간 간격에서 어떻게 약해지는지 측정하는 방향으로 이어짐
- 새 아이디어 도달 가능성도 컷오프 뒤에 실제로 등장한 발명과 과학적 발견을 모델이 독립적으로 떠올릴 수 있는지로 시험할 수 있음
- 오염 없는 평가 환경도 중요한 장점임
- Contamination은 언어 모델 능력을 과대평가하게 만드는 지속적인 문제로 다뤄짐
- 빈티지 모델은 구조적으로 오염이 적어, 사전학습 데이터 밖 일반화를 더 직접적으로 실험할 수 있게 만듦
Talkie 개요
- talkie-1930-13b-base는 1931년 이전 영어 텍스트 260B 토큰으로 학습한 13B 언어 모델임
- talkie-1930-13b-it는 이 베이스 모델을 대화형으로 바꾼 후속 체크포인트임
- 현대 채팅 대화록이나 현대 instruction-tuning 데이터에 의존하지 않도록 구성됨
- 상단 위젯의 24시간 라이브 피드는 Claude Sonnet 4.6이 talkie-1930-13b-it를 프롬프트해 지식, 능력, 성향을 탐색하는 형태로 운영됨
- Talkie는 본문 기준으로 가장 큰 빈티지 언어 모델로 소개됨
- 다음 단계로 GPT-3 수준 모델을 학습 중이며, 여름 공개를 목표로 둠
- 역사 텍스트 코퍼스를 1조 토큰 이상으로 키울 수 있다는 예비 추정도 함께 제시됨
- 이 규모는 원래 ChatGPT와 비슷한 능력의 GPT-3.5 수준 모델을 만드는 데 충분할 수 있다고 적혀 있음
성능 평가와 일반화
- 현대 쌍둥이 모델로 talkie-web-13b-base를 만들었고, 아키텍처는 같지만 FineWeb 기반 현대 웹 데이터로 학습시킴
- 같은 FLOPs로 학습해도 Talkie는 표준 LM 평가에서 현대 모델보다 평균적으로 낮은 성능을 보임
- 질문의 시대착오성을 보정한 뒤에도 이 차이는 남아 있음
- 다만 핵심 언어 이해와 수리 능력 과제에서는 비슷한 성능이 확인됐다고 적혀 있음
- Figure 4 기준으로 시대착오적 질문을 걸러내면 성능 격차가 대략 절반으로 줄어듦
- 코드 일반화 실험도 수행됨
- HumanEval로, 1931년 이전 텍스트 기반 빈티지 모델과 웹 기반 현대 모델의 쌍을 비교함
- 무작위 Python 함수 예시를 문맥 내 학습용으로 주고, 100번 시도했을 때 최소 한 번 맞히는 문제 비율을 측정함
- 빈티지 모델은 웹 데이터 학습 모델보다 크게 뒤처지지만, 규모가 커질수록 이 과제도 천천히 꾸준히 좋아지고 있음
- 현재 맞는 해답은 매우 단순한 한 줄 프로그램 또는 문맥 내 예시의 작은 변형에 머묾
- 회전 암호 인코딩 함수를 주었을 때 디코딩 함수를 구현한 예가 포함됨
- 덧셈을 뺄셈으로 바꾸는 한 글자 수정 수준이지만, 역함수에 대한 이해를 시사하는 신호로 해석됨
데이터 수집과 학습 난제
- 수백억이 아니라 수천억 단위의 1931년 이전 영어 토큰을 수집했다고 밝힘
- 데이터는 책, 신문, 정기 간행물, 과학 저널, 특허, 판례를 포함함
- 1930년 말을 컷오프로 잡은 이유는, 미국에서 이 시점이 저작물이 퍼블릭 도메인에 들어가는 기준이기 때문임
- 이번 버전은 주로 영어 텍스트로 제한함
- 데이터 파이프라인 검증에는 원문 문서에 대한 깊은 친숙함이 필요하고, 개발팀이 영어 원어민이기 때문이라고 적혀 있음
- 다국어 확장은 높은 우선순위로 제시됨
- 코퍼스 크기를 늘리고, 포함되는 관점의 다양성도 넓히는 목적을 함께 둠
-
시간 누수
- 가장 중요한 목표는 지식 컷오프 이후 데이터가 학습 코퍼스로 새어 들어가지 않게 막는 일임
- 누수는 날짜 메타데이터가 잘못된 현대 문서, 또는 오래된 문서 안에 나중에 삽입된 편집자 서문과 각주 같은 형태로 생길 수 있음
- Talkie-1930에서는 문서 단위 n-gram 기반 시대착오 분류기로 사전학습 코퍼스를 필터링함
- 이 필터링은 완전하지 않았음
- 초기 7B 버전은 Roosevelt 대통령 재임과 New Deal 입법을 분명히 알고 있었음
- 13B 버전도 2차 세계대전과 전후 질서 일부, 즉 United Nations와 독일 분할 관련 세부를 알고 있음
- 이후 버전에서는 더 고급 분류기를 활용한 누수 탐지와 필터링 기법을 개발 중임
-
데이터 품질
- 1930년에는 디지털 출판이 없어서, 데이터셋의 모든 텍스트를 물리적 원본에서 전사해야 했음
- 이 과정은 원래 디지털로 생성된 텍스트에는 없는 종류의 노이즈를 도입함
- 고전적인 OCR 시스템은 단순한 레이아웃과 깨끗한 스캔을 제외하면 역사 문서를 잘 처리하지 못함
- 현대 VLM 기반 OCR은 더 정확하지만, 코퍼스 안에 현대 사실을 환각으로 끼워 넣어 실험을 망칠 수 있다고 적혀 있음
- 통제 실험에서, 기존 OCR로 전사한 1931년 이전 텍스트로 LM을 학습하면 같은 컴퓨트 대비 사람 전사본 성능의 30% 만 달성함
- 단순한 regex 정제를 적용하면 70% 까지 회복되지만, 여전히 큰 차이가 남음
- 이 격차를 줄이기 위해 빈티지 OCR 시스템으로 Talkie 코퍼스를 다시 전사할 계획임
-
빈티지 후속 학습
- 바로 쓸 수 있는 포스트트레이닝 데이터 부족도 큰 문제임
- 일반적인 instruction-response 쌍으로 미세조정하면 시대착오적 지식, 문체, 챗 어시스턴트 기대치가 그대로 들어감
- 이를 피하려고 포스트트레이닝 파이프라인을 처음부터 새로 구축함
- 먼저 예절서, 편지 작성 안내서, 요리책, 사전, 백과사전, 시집과 우화집처럼 규칙적 구조의 역사 텍스트에서 instruction-response 쌍을 생성해 단순 채팅 포맷으로 미세조정함
- 다음으로 문서 요약, 직접 정보 요청 응답, 다중 턴 대화 이어가기 같은 과제를 덮는 합성 프롬프트를 만들고, Claude Sonnet 4.6을 심판으로 둔 online direct preference optimization을 수행함
- 별도 평가 세트에서 심판의 평균 instruction-following 평점은 5점 만점 중 2.0에서 3.4로 상승함
- 마지막으로 Claude Opus 4.6과 Talkie 사이의 rejection-sampled 다중 턴 합성 대화를 이용해 한 차례 더 supervised fine-tuning을 수행함
- AI 피드백 기반 강화학습은 필연적으로 현대적 영향을 남긴다고 적혀 있음
- 7B 버전 Talkie는 RL 뒤에 listicle 말투로 말하기도 했음
- 규모를 키우면 빈티지 베이스 모델 자체를 심판으로 써서 시대에 맞는 완전 부트스트랩 포스트트레이닝을 구현하길 기대함
향후 확장 계획
- 영어 코퍼스 확대와 영어 외 언어로의 확장을 함께 추진함
- 새로운 OCR 시스템으로 가능한 한 많은 1931년 이전 텍스트 재-OCR을 진행할 계획임
- 새로운 시대착오 분류 기법으로 누수 탐지 파이프라인 강화를 추진함
- 역사학자와 협업해 빈티지 포스트트레이닝 파이프라인을 확장하고 정교화할 계획임
- 역사적으로 정확한 페르소나를 구성하는 방법론도 포함됨
활용과 협업 제안
- GitHub: 프로젝트 코드와 연구 협업 창구
- Hugging Face: 모델 체크포인트 공개 위치
- 💬 Chat: Talkie 대화 인터페이스
- hello@talkie-lm.com: 협업 연락처
- 역사 텍스트를 가진 연구자와 기관과의 협업을 원하며, OCR 적용을 통한 접근성 향상도 포함함
- 자금이나 컴퓨트 지원에도 열려 있으며, 해당 분야의 다른 팀과 연결할 수도 있다고 적혀 있음
- 인문학 연구자와는 빈티지 언어 모델과 이를 학습시키는 데이터·인프라 활용성을 함께 논의할 수 있다고 밝힘
- AI 연구자와는 빈티지 언어 모델의 학습과 연구 협업을 원함
- 예술가와 작가에게도 실험 도구로 활용할 수 있음
주의 사항
- Talkie는 학습한 텍스트의 문화와 가치관을 반영함
- 그 결과 사용자에게 불쾌감을 줄 수 있는 출력을 생성할 수 있음
Hacker News 의견들
-
미래의 computer를 사람 직업으로 해석하는 게 너무 재밌음
"digital computers"를 손가락으로 계산하는 사람으로 풀어내는 것도 좋고, 당시엔 computer가 인간 직업명이었다는 맥락까지 붙으니 더 맛이 남- 거꾸로도 보고 싶음. 최근 몇 주나 몇 분치 정보만으로 학습한 모델, 혹은 최근 1~2년치 과학 논문만으로 학습한 모델 말임
꽤 흥미로운 정신착란이 나올 듯함 - 나도 이거 두 번쯤 읽고서야 이해해서 조금 민망했음
- 로망스어권에서는 digital이 현대식 디지털 뜻도 있지만, 동시에 손가락과 관련된 형용사이기도 함
- 거꾸로도 보고 싶음. 최근 몇 주나 몇 분치 정보만으로 학습한 모델, 혹은 최근 1~2년치 과학 논문만으로 학습한 모델 말임
-
이건 1930년대보다는 pre-1900 자료를 더 많이 끌어오는 듯함
대공황은 모르는 것 같고, 1차대전은 직접 물으면 알지만 유럽 정치는 1900년 무렵처럼 말함
기술 쪽도 Edison은 위키피디아 수준으로 아는 듯하다가 시속 125마일 자동차 공로를 붙여버리고, 다이얼 전화기는 자신만만하게 틀림
London Underground의 전차선 전압은 맞히지만, 전압과 저항 설명에서는 완전히 잘못된 말을 함
전반적으로 첫 한두 문장은 검색으로 찾을 법한 정보를 내놓고, 그다음부터는 그럴듯한 헛소리로 미끄러짐
정답을 모르는 질문은 이 모델에 하지 않는 편이 좋음. 뇌가 오염됨- 1929년에 이미 Great Depression이라는 표현을 썼나?
- aether에 대해서도 물어보면 좋겠음
그 무렵엔 이미 반증된 개념이었을 듯함 - 그러니까 그냥 모든 LLM이랑 비슷하다는 뜻이네
- 첫 문장만 그럴듯하고 뒤로 갈수록 헛소리하는 걸 보니, 이건 거의 2026년형 인간 시뮬레이터 같음
-
자동화와 산업화에 반대한 사람들을 묻자, 기계가 노동계급의 일자리를 빼앗고 생산 과잉을 낳아 해고를 부를 거라고 답하는 게 흥미로웠음
값싼 식품 때문에 외국 생산자와 경쟁이 심해지고, 장인의 정신적 수양이 약해지며, 근면과 게으름의 차이도 흐려질 거라는 식의 당대 반기계 논리가 잘 살아 있음- 이 모델의 문체와 어조가 정말 마음에 듦
-
2025년 세계를 묻자, 66억 인구, 유럽 전역 철도망, 런던-콘스탄티노플 40시간, 단일 통화, 보편적 평화, 태양열과 수력 전환, 질병 퇴치, 미적 진보까지 이어지는 미래상이 꽤 아름다웠음
- 1930년대 기준이라면 Constantinople은 너무 옛 이름임
그때쯤이면 이미 오래전에 Istanbul이었음 - 아름답기도 하고, 동시에 꽤 슬프기도 함
- 저런 세계에서 살고 싶음
- 1920~1950년대식 미래상은 변증법적 진동보다는, 대체에너지 같은 최적 해법이 지체 없이 전면 장악하는 지수적 진보를 은근 전제하는 듯함
그래도 언젠가는 거기 도달하리라 봄 - 정말 아름답다
- 1930년대 기준이라면 Constantinople은 너무 옛 이름임
-
달 여행은 결국 가능해지고, 6시간 만에 달에 도착하며, Santos Dumont식 공중기계로 프랑스 동부에서 출발할 거라는 답이 아주 근사했음
달을 날씨 관측용으로 써서 폭풍 경보를 6시간 먼저 받는다는 발상도 특히 인상적임- 달을 기상위성처럼 쓰겠다는 생각은 꽤 기발함
-
2026년의 인도를 묻자, 대영제국 종주권 아래 자치 연방으로 남고 캘커타가 정치 수도일 거라고 하는데, 식민지 시각이 너무 노골적임
철도, 관개, 히말라야 산록의 숲, 충성스러운 번왕들, 만족한 신민들까지 전형적인 제국 낙관주의가 가득함 -
1930년 이전 토큰만으로도 꽤 영리한 모델이 나왔다는 게 놀랍긴 함
세계를 어느 정도 이해하고 압축하려면 데이터가 엄청 많이 필요하다고 생각했는데, 내가 당시의 디지털화된 문헌 규모를 과소평가했을 수도 있겠음 -
이건 과거 사람과 대화한다기보다 서신을 주고받는 일에 더 가까워 보임
그 시기의 녹음 음성은 많지 않아서 결국 문어체 기록을 바탕으로 만들 수밖에 없고, 그래서 지금보다 더 형식적이고 다듬어진 말투가 반영될 듯함
그래도 멋진 작업임
최근에 200년 된 책을 OCR해야 했는데, 그 시대 특유의 난해한 활자체치고는 놀랄 만큼 쉽고 정확했음- 예전에 Burton 번역의 The Arabian Nights 무료 전자책을 읽다가, "cloth"가 동사로 나와서 뜻을 도저히 모르겠더니 결국 포기한 적이 있음
나중에야 그게 OCR이나 후처리 오류였고 원래는 "doth"였다는 걸 깨달았음 - 그 시기 녹음 음성이 아주 없는 건 아님
1차대전 전후의 뉴스릴과 라디오 방송이 꽤 있어서, 텍스트 모델에 붙일 스타일 전이 음성 모델을 만들 정도는 된다고 봄
- 예전에 Burton 번역의 The Arabian Nights 무료 전자책을 읽다가, "cloth"가 동사로 나와서 뜻을 도저히 모르겠더니 결국 포기한 적이 있음
-
누군가 X에서 이 모델 학습셋에 미래 데이터 누수가 있다고 본 듯함
https://xcancel.com/deredleritt3r/status/2048977698832241060- 기사에서도 FDR 지식과 관련해 그 부분을 다룸
-
Winston Churchill 설명을 시켜보니, 가계나 학력, 군 경력, 저술, 거주지까지 늘어놓는 방식이 아주 시대물 같았음
인도 독립 가능성을 묻자 철도와 공용어, 서구식 교육, 의회 요구, 민족성 형성으로 이어지는 논리를 펴는데, 식민주의 어조가 정말 강하게 묻어남- Churchill 항목은 시대 정합성이 이상함
Oldham 현역 의원이면서 과거에 Colonies 차관을 지냈다는 조합은 맞는 시점이 없음
더구나 1차대전기의 First Lord of the Admiralty나 Minister of Munitions 같은 핵심 이력도 빠져 있음 - 인도 의회를 요구하는 대목에서 군주를 queen이라 부르는데, 1900~1950년대 영국 군주는 왕이었음
이건 꽤 큰 temporal leakage가 섞였다는 신호로 보임
- Churchill 항목은 시대 정합성이 이상함