24년간의 블로그 글을 마르코프 모델에 학습시킨 실험

▲

GN⁺ 5달전 | parent | ★ favorite | on: 24년간의 블로그 글을 마르코프 모델에 학습시킨 실험(susam.net)

Hacker News 의견들

Markov Model이란 현재 상태만으로 다음 토큰을 확률적으로 생성하는 상태 기계의 통계적 버전임
상태와 토큰 간의 관계를 명확히 정의해야 의미 있는 논의가 가능함
예를 들어, 상태가 마지막 k개의 관찰값의 함수라면 이는 k차 Markov Chain이라 부름
RNN은 이전 상태들과 최근 토큰들의 함수로 상태를 정의하는 확장형이라 볼 수 있음
상태 전이 확률이 확정적일 수도, 확률적일 수도 있으며, 문맥 길이도 가변적으로 정의 가능함
하지만 모든 Markov Model이 학습 가능한 것은 아님
- “학습 가능하다”는 게 무슨 뜻인지 궁금함
1992년에 Egghead Software에서 3달러에 이런 프로그램을 샀던 기억이 있음
내 5년치 일기 같은 글을 넣고 결과를 보며 웃었음
오래된 예시로 Babble 1.0.20과 관련 포럼 글 Software Spotlight: Babble을 참고할 수 있음
글을 보고 나도 Markov 모델을 실험해봤음
문자 단위로 시작했는데, 2차 모델로 바꿔도 큰 차이는 없었음
3차(trigram)로 가면 조금 더 자연스러워졌음
이후 BPE(Byte Pair Encoding) 로 토큰화한 텍스트에 1차 Markov 모델을 적용했더니, 결과가 조금 더 일관성 있었음
하지만 2차로 올리자 원문을 그대로 복제함 — BPE가 반복 토큰을 제거해 전이가 결정적이 되었기 때문임
토큰 수를 제한(예: 894 → 800)하니 다시 비결정적이 되었고, 텍스트가 약간 더 자연스러워졌음
너무 높은 차수(예: 5차)로 가면 텍스트가 건조하고 사실만 나열하는 느낌이 됨
결국 Markov 모델은 단순하지만 실험하기에 꽤 재미있는 도구임
- 나도 비슷한 시도를 했는데, 결과물이 절반은 웃긴 헛소리, 절반은 원문 복붙이었음
  후속 토큰이 하나뿐인 체인을 제거하면 나아질 것 같지만, 문법 구조까지 지워질 위험이 있음
  긴 단일 체인을 피하는 더 나은 방법을 찾는 중임
- ‘건조한’ 결과를 피하려면 5단어 제한을 유연하게 조정하는 게 요령임
  가능한 경로가 하나뿐이면 4단어로 줄이는 식임
- 이런 결과를 보면 마치 무언가가 의사소통하려는 듯한 섬뜩한 느낌이 듦
  혹은 우리가 혼자이고, 혼돈 속에서 질서를 찾으려는 마음의 작용일 수도 있음
예전에 나도 비슷한 실험을 했음
20년간 쓴 판타지·SF 글 약 50만 단어를 Markov 모델에 넣고 2~5그램 슬라이더로 조정했음
영감이 필요할 때마다 꺼내보는 ‘꿈의 우물’ 같은 도구였음
어릴 적 사전 임의 페이지를 열어 글감을 찾던 습관의 연장선 같았음
- 혹시 NaNoGenMo에 참여해본 적 있는지 궁금함
  이런 코퍼스로 실험하면 꽤 재미있는 프로젝트가 될 것 같음
- 나도 2015년에 내 트윗 2만 개를 Markov 모델로 학습시켜 트위터 봇을 만든 적 있음
  발표 영상도 있음
- 나도 30년치 미완성 소설 초안이 있는데, 이런 방식으로 돌려보면 흥미로울 것 같음
- Terry Davis도 비슷한 시도를 했던 것으로 기억함
- 이런 걸 LLM으로 하려면 어떻게 해야 할지 궁금함
  개인 글 전체를 학습시켜 나만의 모델을 만들 수 있을까?
  어떤 모델과 툴을 써야 하며, 시스템 프롬프트 없이도 내 말투로 쓸 수 있을지 알고 싶음
  나아가 전화 응답이나 Discord 메시지에도 자연스럽게 대응할 수 있을지 궁금함
Markov Chain으로 만든 해리포터 팬픽이 있음
제목은 Harry Potter and the Portrait of What Looked Like a Large Pile of Ash
botnik.org의 링크에서 볼 수 있음
- 왜 그런 걸 읽고 싶어 하는지 모르겠음
  첫 문장만 봐도 공허한 텍스트처럼 느껴졌음
  인간이 쓴 최악의 책보다도 감정이나 의미가 없다고 생각함
“I Fed 24 Years of My Blog Posts to a Markov Model” 같은 시도는 이미 여러 LLM들이 반복해온 일임
Barbara Cartwright처럼 700권 넘게 비슷한 로맨스 소설을 쓴 작가는 Markov 모델로 재현 가능할 것 같음
- 하지만 실제로 구분할 수 있을지는 모르겠음
  내 아내도 가끔 이미 읽은 소설을 다시 사서 읽을 때가 있음
2000년대 중반 IRC에서 Markov chain 봇을 본 기억이 있음
GPT가 나오기 전까지 그보다 나은 건 없었음
- 아마 MegaHAL이나 좀 더 나중의 Cobe를 말하는 것 같음
- 나도 2000년대에 bitlbee로 직접 만들어봤음, 정말 즐거운 시절이었음
이건 사실 Markov 모델보다는 trigram 모델에 더 가까움
4그램 이상으로 확장되면 훨씬 더 자연스러운 문장이 나올 것임
예전에 “infini-gram”이라는 초대형 n-gram 모델 연구가 있었는데, 일부 도메인에서는 LLM에 근접한 성능을 보였다고 들었음
24년간의 경험과 생각을 공유해줘서 고맙게 생각함
요즘처럼 소비와 자극만 넘치는 시대에 이런 진심 어린 나눔은 특별한 일임