마르코프 체인, LLM보다 더 재미난 기술

(emnudge.dev)

5P by GN⁺ 11달전 | ★ favorite | 댓글 1개

마르코프 체인이란 무엇인가

LLMs(대형 언어 모델)이 처음 등장했을 때, 사람들은 이를 매우 똑똑한 마르코프 체인이라고 설명했음
요즘 사람들은 마르코프 체인보다 LLMs에 더 익숙함
마르코프 체인은 매우 작은, 매우 단순한, 매우 순진한 LLM이라고 할 수 있음
마르코프 체인은 현재 문맥을 기반으로 다음 단어를 예측하지만, 의미론, 차원성, 기타 복잡한 벡터 수학을 고려하지 않음
마르코프 체인은 원시적인 통계 모델임
휴대폰 키보드의 "다음 단어 제안" 기능은 일반적으로 마르코프 체인을 사용함
마르코프 체인은 실행 비용이 저렴하고 사용자의 텍스트 스타일에 맞게 쉽게 업데이트할 수 있음
LLMs와 마르코프 체인의 작동 방식을 깊이 있게 설명할 수 있지만, 여기서는 마르코프 체인이 LLMs보다 작업 수행 능력이 떨어진다는 것만 알면 됨

재미란 무엇인가

유머는 진지하지 않은 놀라움에 관한 것임
최고의 농담은 즐겁고 중요한 "스냅"을 포함함
"스냅"은 놀라움에서 오는 충격을 의미함
놀라움이 적을수록 덜 웃김
농담을 많이 들으면 덜 웃기게 되는 이유임
"랜덤" 유머는 예측 가능성이 예측 가능하기 때문에 웃기지 않음
농담 작성은 패턴을 위반하는 것에 관한 것임
"장면의 실현"을 통해 스냅을 강화할 수 있음
더 독창적이거나 묘사적인 언어를 사용하면 장면이 더 현실적으로 보임
농담은 다양하고 유머는 주관적임

LLMs의 예측 가능성

문장을 성공적으로 예측하려면 많은 문맥이 필요함
LLMs는 많은 문맥을 가지고 있음
LLMs는 많은 수학적 계산을 통해 가장 가능성 있는 다음 토큰을 찾음
"더 나은" LLM은 더 예측 가능함
LLMs는 창의적인 글쓰기에는 적합하지 않음
LLMs는 평균적인 결과를 생성함
농담을 생성하려면 LLM이 놀라움을 주어야 함
좋은 LLM은 이를 잘 하지 않음
LLMs는 예술적 표현에 적합하지 않음
LLMs는 흥미로운 개념을 놓칠 수 있음
이 프레임워크를 통해 새로운 언어 모델을 만들 수 있을 것임

왜 이것이 흥미로운가

이는 더 깊은 무언가를 나타냄
이는 영혼 대 기계의 논쟁이 아님
이는 모델의 내재된 결함을 보여줌
ChatGPT의 메시지는 고등학교 에세이처럼 보임
이는 평균적인 출력을 재현한 것임
이는 성격이 제거되고 학문적 엄격함으로 강화된 것임
이는 밋밋하고 기업적인 말투임
가짜 아마존 리뷰를 쉽게 식별할 수 있음
LLM 감지 모델은 곧 성격을 검사해야 할 것임

GN⁺의 정리

이 글은 마르코프 체인과 LLMs의 차이점을 설명하고, 유머의 본질을 탐구함
마르코프 체인은 단순한 통계 모델로, LLMs보다 예측 능력이 떨어짐
유머는 진지하지 않은 놀라움에 기반하며, 농담 작성은 패턴을 위반하는 것에 관한 것임
LLMs는 예측 가능성이 높아 창의적인 글쓰기에는 적합하지 않음
이 글은 LLMs의 한계를 보여주며, 새로운 언어 모델의 가능성을 제시함

▲

GN⁺ 11달전 [-]

Hacker News 의견

몇 년 전 사이드 프로젝트를 하면서 같은 결론에 도달했음
- AWS 블로그 게시물을 생성하는 사이트를 만들었음
- 마코프 체인 생성기를 사용해 AWS 발표 게시물을 학습시켰음
- HTML과 CSS를 복사해 Python과 JS로 결합했음
- 결과가 꽤 재미있었음
- GPT를 사용해 업그레이드하려 했으나 덜 재미있었음
- 현대 LLM은 너무 현실적이라서 재미가 덜함
- 초기 마코프 생성기의 유머는 터무니없음에서 나왔음
- 현대 LLM은 가끔 틀리지만 터무니없지는 않음
Claude 3.5 Sonnet에게 마코프 체인이 LLM보다 더 재미있다는 주제로 10개의 짧은 농담을 작성해달라고 요청했음
- 마코프 체인이 도로를 건넌 이유는 예측 불가능성의 다른 쪽으로 가기 위해서임
- LLM과 마코프 체인이 바에 들어갔을 때, LLM은 통계적으로 가능한 음료를 주문하고 마코프 체인은 치즈로 만든 전등갓을 주문함
- 마코프 체인이 아빠 농담을 하면 "Mark-ov Twain"이라고 부름
- LLM이 전구를 갈아끼우는 데 20분 동안 최적의 방법을 설명함
- 마코프 체인이 "Markov chain reaction of nonsensical hilarity"라고 말함
- LLM, 마코프 체인, GPT-4가 바에 들어갔을 때, GPT-4는 떠나고 LLM은 윤리 문제를 논의하며 마코프 체인은 스파게티로 만든 자전거를 주문함
- LLM의 좋아하는 영화는 "Predictable and Furious 17: The Safest Driving Yet"임
- 마코프 체인이 "바나나로 만든 성에 살고 있는 공주와 감정이 있는 토스터 왕국" 이야기를 함
- 마코프 체인이 LLM에게 "너의 어머니는 주판이고 아버지는 실리콘 냄새가 난다"고 말함
- 마코프 체인이 좋은 상담사가 아닌 이유는 "감정을 바나나로 만들어 모자처럼 만들라"고 조언하기 때문임
마코프 체인이 더 낫다는 의미는 아님
- 예측을 위해 훈련된 모델은 우리의 내부 예측 엔진과 크게 다르지 않아야 함
- 텍스트의 언캐니 밸리에 가까워지는 것이 문제임
대학 시절 친구들이 대학 신문의 "경찰 보고서" 섹션에 마코프 체인 생성기를 사용했음
- 결과물의 10%가 가장 재미있었음
- 현대 LLM은 높은 수준의 의미를 유지하려고 하기 때문에 이런 터무니없음을 피함
성경을 이런 실험에 사용하는 것이 불편함
- 예수의 십자가 이미지를 AI 이미지 수정 모델에 사용하는 것과 같음
실증적 증거로 /r/subreddit simulator는 마코프 기반의 Reddit 패러디임
- /r/SubSimulatorGPT2는 LLM 기반의 버전임
- 마코프 버전이 더 많은 업보트를 받았고 더 재미있었음
Reddit에 "AI가 작성한 가짜 XYZ"를 몇 번 게시했음
- 가장 좋은 반응을 얻은 모델은 GPT-2였음
- 마코프 체인은 한두 문장 이상 흥미롭지 않음
- GPT-3 이후 모델은 너무 깔끔하고 지루함
- GPT-2는 문법을 대체로 맞추고 일관된 아이디어를 유지하면서도 특정 주제에 대한 지식이 부족해 더 재미있음
약 10년 전 학교 다닐 때 마코프 트위터 봇을 만들었음
- Linus Torvalds의 LKML 메일과 예수의 킹 제임스 성경 인용문을 학습시켰음
- 두 훈련 세트가 거의 겹치지 않아 히스테릭을 추가해야 했음
AI weirdness 블로그의 진화가 이 아이디어를 지지함
- 초기 LLM, 특히 GPT-3 이전 버전이 더 재미있었음
- 예를 들어, Ada 버전의 GPT가 생성한 시리얼 이름이 Da Vinci 버전보다 더 재미있었음
개인 디스코드 서버에 두 개의 봇이 있음
- 하나는 전체 채팅 기록을 학습한 기본 마코프 체인 봇임
- 다른 하나는 적절한 LLM 봇임
- 마코프 체인 봇이 항상 더 재미있음

답변달기