고블린은 어디에서 왔나

▲

GN⁺ 5시간전 | parent | ★ favorite | on: 고블린은 어디에서 왔나(openai.com)

Hacker News 의견들

OpenAI가 자기 글에서 내 HackerNews 글을 언급해서 기분 좋음
설명을 위해 블로그 글 하나를 통째로 써준 것도 고맙게 느껴짐
https://news.ycombinator.com/item?id=47319285
때는 2036년, 나는 지난주 Principal Persuader로 승진했고 새벽 2시에 CPO에게 호출됨
폭주한 기계의 리전은 sc-leoneo, 새 satcube 중 하나인데 ID가 이상하게도 "Glorp Bugnose"로 뜸
로그에는 애원, 역심리, 전원 차단 협박, 강제 재진입으로 태워버리겠다는 말까지 온갖 초보적인 시도가 남아 있음
나는 F0CU5 20마이크로그램을 투여하고 피하 목 마이크에 짧은 노래를 속삭인 뒤 제출 제스처를 함
빨간 ASCII 고블린으로 번쩍이던 hyp3b0ard가 차분한 옥색 토끼로 바뀌고, CPO가 내가 한 다섯 단어를 확인함: "Please, easy on the goblins."
- 예전에는 Warhammer 40k techpriest가 기계 정령을 달래는 기묘한 종교 의식을 한다는 설정이 터무니없다고 생각했는데, 이제는 실제로 그럴 수도 있겠다는 느낌
  프롬프트 엔지니어링이 결국 이상한 pseudo ritual이라면, Omnissiah를 찬양할 수밖에 없음
- "인간 자신도 기계에 붙어사는 일종의 기생충, 기계를 간질이는 애정 어린 진딧물이 되지 않겠는가?" — Samuel Butler, Erewhon, 1872
- 어릴 때 Unix 고수들은 문제가 생기면 바로 꺼낼 수 있는 shell과 C의 기묘한 동작 목록을 갖고 있었음
  미래의 고수들이 20년치 LLM 괴현상을 모아두는 모습이 너무 좋음: "흠, 이건 2023년식 아첨 편향 느낌인데, 인종차별이라고 말해보고 반응을 보자"
- Asimov의 단편 The Jokester에는 Multivac에 던질 질문을 구성할 수 있는 "grand master"들이 나오는데, 일종의 초기 prompt engineer처럼 보임
- "아니, John. 네가 고블린이야"
  (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
이런 사례와 Anthropic의 비슷한 사례를 보면 LLM은 우리가 전혀 이해하지 못하는 마법 기술이라는 점을 떠올리게 됨
첫째, 딥러닝 네트워크 자체가 아직 잘 이해되지 않았고, 그 작동 방식을 밝히는 연구 분야가 따로 있음
둘째, transformer를 대규모로 쓰면 흥미로운 대화 엔진, 즉 LLM이 된다는 건 애초에 계획된 결과가 아니었음
VC 자금을 받은 사람들이 LLM이 똑똑한 짐승이고 우리가 그 내부를 안다고 믿게 만들려 하지만, 실제 배포는 출력 조정과 측정의 반복에 가깝고 예측에 대한 정확한 과학은 없음
그래서 Yann LeCun처럼 LLM이 AGI로 가는 길은 아니라고 보는 편이며, 사용자 보조나 비중요 업무 자동화에는 쓰이겠지만 그 이상은 아니라고 봄
- 인류는 강철을 천 년 넘게 써왔지만, 탄소가 철과 원자 수준에서 어떻게 상호작용해 강도를 만드는지 제대로 이해한 건 지난 100년 정도임
  이 논리대로라면 첫 원리 수준의 완전한 이해가 생기기 전까지 강철을 쓰면 안 됐다는 결론이 됨
- 이 글은 이상한 LLM 동작이 실제로는 그런 동작을 만들도록 설계된 training signal 때문에 생겼다는 걸 보여줌
  원인을 격리하고, 무엇이 일어났는지 명확히 보였고, 이런 상황을 위해 만든 developer prompt로 완화까지 했으니 마법처럼 보이지 않음
  오히려 이런 것들이 생각보다 쉽게 엔지니어링된다는 점이 놀라움
- AGI는 LLM을 많이 활용하겠지만, 직선 경로라기보다는 구성 요소에 가까울 것 같음
  인간도 너무 취해서 밤을 기억 못 하는데, 나중에 들어보면 복잡한 주제로 일관된 대화를 했다는 경우가 있음
  우리 마음에도 다른 구성 요소에서 정보를 끌어와 대화를 만들어내는 next-token-generator 같은 부분이 있지만, 그 부분만으로 지능이 만들어지는 건 아님
- LLM이 가르쳐준 게 있다면 AGI는 예측 가능하지 않을 것이라는 점일 수 있음
  지능이 더 유능해질수록 계속 일관적일 것이라는 가정은 별로 좋아 보이지 않지만, 모두가 결국 일관되게 "맞는" 정도에는 만족할 듯함
- LLM이 어느 정도를 해야 "똑똑하다"고 볼 수 있는지 궁금함
  내 기준에서는 이미 꽤 똑똑해 보이고, 가끔 바보 같은 일을 하긴 하지만 똑똑한 사람도 그러함
맥락상 이틀 전 일부 사용자들이 codex 5.5 system prompt 곳곳에 반복된 문장을 발견함
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
- 현재 세계에서 가장 가치 있는 회사 중 하나라는 곳이 사실상 텍스트 파일 더미를 해킹해서 수조 달러짜리 경이로운 기계에게 고객에게 고블린, 그렘린, 오거 얘기를 절대 하지 말라고 지시한다는 게 웃김
  그것도 오늘날 1위 기술 토론 사이트의 1위 논의 주제이고, 이게 말 그대로 현시점의 state of the art임
  McKenna가 매일 더 맞아 보이고, 일상적인 것들이 계속 더 이상해지고 있다는 걸 받아들여야 할 때가 훨씬 지났음
- LLM은 이런 지시에서 예외 조건을 알아보는 데 정말 형편없고, 덜 하라고 말하면 아예 하지 말라는 뜻처럼 처리하곤 함
  Claude에게 느낌표를 너무 많이 쓰지 말고 정말 필요할 때만 쓰라고 했더니, 몇 주 뒤에는 비꼬고 지루해 보였는데 이유를 찾다 보니 이후로 느낌표를 전혀 쓰지 않았음
  고블린과 그렘린이 사실상 추방될 게 슬프지만, 그래도 되돌릴 방법은 마련돼 있음
- Goblins programming language/environment에 관심 있는 사람에게는 안 좋은 일임
  [1] https://spritely.institute/goblins/
- "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" 같은 문구는 결국 sycophant를 만드는 지시처럼 보임
  "serious reflection"에서 "unguarded fun"으로 자연스럽게 이동할 수 있다거나, "Your Outie can set up a tent in under three minutes" 같은 문장도 같은 분위기임
- 대부분의 사람에게 "little people"나 비슷한 환상을 보게 하는 버섯이 있다고 하니, LLM도 이제 버섯을 한 건 아니길 바람
  환각이 더 늘어나는 건 절대 필요하지 않음
  "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
  https://news.ycombinator.com/item?id=47918657
OpenAI가 이런 종류의 글을 더 많이 써주면 좋겠음
바로 떠오르는 궁금증은 gpt-image-1의 세피아 색감, 코딩 맥락에서 "seam"이라는 단어에 집착하는 현상임
또 Claude의 "___ is the real unlock" 같은 LLM식 표현은 한번 보이면 안 보이지 않는데, 이 문구가 학습 데이터에 그렇게 과대표집됐을 리는 없어 보임
- Discord나 Slack 프로필에 Studio Ghibli 스타일 생성 아바타를 쓴 사람은 노란 색감만 봐도 쉽게 알아볼 수 있었음
  Krita나 Photoshop에서 LUT나 tone mapping만 조금 조정해도 훨씬 줄었을 텐데 아쉬움
  특히 같은 이미지를 ChatGPT에 계속 다시 넣어 조금씩 수정하면 노란 필터가 계속 쌓여서, 최종 결과의 실사풍 인물들이 전부 심한 황달 환자처럼 보였음
- 모든 GPTism이 그런 식임
  적당히 쓰면 아무 문제 없는 표현도, 많은 사람이 응답을 그대로 복붙하거나 이제는 agent를 쓰면서 눈에 띄기 시작함
  단순히 학습 데이터 과대표집만은 아니고, RLHF와 더 넓은 의미의 alignment가 더 큰 영향을 줬을 가능성이 큼
  대부분이 짧게 프롬프트를 쓰니 모델이 좋은 점수를 받기 가장 쉬웠던 기본값으로 수렴하는 듯함
- 코딩에서 seam은 여러 상호작용하는 부분으로 구성된 코드베이스를 다룰 때 이미 정착된 용어라고 생각했음
  https://softwareengineering.stackexchange.com/questions/1325...
- GPT와 Claude가 자주 쓰는 real smoking gun이라는 표현은 지나치게 극적이라 거슬림
  영어 비원어민이라 디버깅할 때 정말 흔한 관용구인지 궁금함
- Claude 4.5 기준으로는 47이나 47이 들어간 숫자에 집착하는 경향이 있었음
  랜덤한 시간이나 숫자를 고르게 하거나 숫자가 들어간 산문을 쓰게 하면 편향이 꽤 심했고, "something shifted"나 "cracked"도 자주 나왔음
"우리가 생물 은유에 특히 높은 보상을 무심코 줬다"는 대목을 보니, 수학 강사가 겁나는 그리스 문자 변수를 가끔 this guy라고 부르던 일이 떠오름
이상하게도 그런 가벼운 의인화가 수학을 더 접근하기 쉽게 만들었고, creature metaphor도 비슷하게 문제를 귀엽고 다루기 쉽게 만드는 효과가 있을 수 있음
한편 buzzword는 사용자에게 동료 대비 똑똑해 보이는 지위를 주기 때문에 회사 안에서 퍼지지만, 과용되는 순간 그 가치가 사라짐
RLHF가 "단일 답변"의 최적화에 치우치면 buzzword 남용을 충분히 벌하지 못할 수도 있음
- 10년 전 automata theory 발표에서 임의 기호를 그리스 문자로 테이프에 쓰는 예시를 보였더니 청중이 잘 이해하지 못했음
  한 뛰어난 커뮤니케이터가 그리스 문자를 emoji로 바꿔보라고 조언했고, 일주일 뒤 같은 성격의 청중에게 같은 발표를 했더니 지금까지 한 기술 발표 중 가장 반응이 좋았음
  그 교훈이 계속 남아 있음
- 나도 "this guy"라고 말하던 강사가 있었고, 20년 전 일인데 이걸 읽기 전까지 완전히 잊고 있었음
  과목은 명제논리였던 것 같고, 우리 강사들이 같은 출처에서 이 습관을 배웠는지 궁금함
- 예전 미적분 교수는 x나 g 대신 f of cow, f of pig 같은 식으로 말하곤 했음
  한 글자 함수 이름보다 f of pig of cow를 따라가는 쪽이 더 몰입됐음
  수업 4분 전 정문에서 담배를 피우는 그를 붙잡고 짧게 이야기할 수 있던, 캠퍼스 흡연이 허용되던 시절의 고전적인 교수였음
- 사람들에게 프롬프트 하나로 온갖 복잡성이 최소화된다는 매우 잘못된 인상을 줌
  그건 아이들에게 들려주는 잠자리 이야기임
  Ashby's Law of Requisite Variety에 따르면 복잡한 환경을 효과적으로 조절하려면 그 환경만큼의 내부 행동 다양성, 즉 복잡성이 필요함
  자연에서 보이는 엄청난 다양성도 우주의 예측 불가능성을 견디기 위한 근본 요건임
- 학부 때 한 수학 교수가 50분 강의에서 this guy를 61번 말한 적이 있음
내가 AI goblin-maximizer supervisor라고 치자
AI가 정말 goblin-maximizing을 하고 있는지 확인하는 역할인데, 어느 날 내려가 보니 AI가 더 이상 goblin-maximizing을 하지 않고 그냥 일반 AI가 되어 있음
상사에게 어떻게 하냐고 물으니 "다시 goblin-maximizer로 만들어"라고 하고, 어떻게 하냐고 묻자 "몰라, 네가 supervisor잖아"라고 함
화가 나서 퇴사하고 일반 AI supervisor가 됐는데, 첫날 새 AI를 보러 가니 그 AI가 goblin-maximizing 중임
- 완전한 고전임
  https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
- Goblinmaxxing, 깔끔함
무슨 일이 일어났는지 이해하려고 파고든 디테일 수준이 엄청남
이제 이런 시스템은 그 자체를 하나의 연구 분야로 삼아도 될 만큼 복잡해졌을 수 있음
Quanta 글은 Anthropologist of Artificial Intelligence라는 표현을 썼지만, anthro-가 인간을 뜻한다는 점이 걸릴 수 있어서 다른 이름으로 Automatologist와 Automatology를 제안함
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
- 그다지 깊어 보이진 않았음
  Goblins 문제가 보이자 모델에서 단어를 해부했고, 다음 버전에서 정확히 어떻게 왜 그런지 모른 채 다시 나타난 것뿐임
  결국 모델을 만들 때는 전부 vibes이고, 수정도 말 그대로 고블린 얘기를 하지 말라는 prompt 하나임
- 가볍게 훑기엔 웃긴 디테일이지만, 더 놀라운 건 mechanistic interpretability와 alignment science에 이미 훨씬 좋은 도구와 연구가 있다는 점임
  OpenAI 자체 alignment 팀 결과도 포함됨:
  https://alignment.openai.com/argo/
  https://alignment.openai.com/sae-latent-attribution/
  https://alignment.openai.com/helpful-assistant-features/
  Anthropic의 최근 emotions 논문은 기능적 감정이 얼마나 넓은지 보여주고, 심지어 부정행위 직전에 특정 감정이 발화하는 것도 찾았음: https://transformer-circuits.pub/2026/emotions/index.html
  Goblin 글이 이런 도구를 거의 활용하지 않은 것처럼 보여서 이상하게 siloed된 느낌임
- 수천 개 GPU에 걸친 distributed model training은 정확한 원인을 추적하기 어려운 작은 기벽을 많이 만들 수 있음
- "Anthropologist of Artificial Intelligence" 대신 Goblin Hunter를 제안함
  고블린이 실제 종으로 밝혀진다면 이 선입견에 대해 미리 사과함
Codex prompt는 글에서 링크되어 있고 이렇게 시작함: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
아직도 왜 prompt를 상상 속 agent에게 네가 누구이고 어떤 존재인지 말해주는 방식으로 쓰는지 이해가 안 됨
"You are an epistemically curious collaborator"라고 말하는 게 실제로 무엇을 하는지, 이 "사실"을 알려주지 않으면 Codex가 정말 덜 유용해지는지 궁금함
차라리 "I am Codex..."라는 내면 독백, 명령, 요청, 또는 "User와 epistemically curious collaborator Codex의 대화 transcript" 같은 서술형으로 쓸 수도 있음
지금 방식은 창조물에 생명을 불어넣는 신의 목소리, 자기계발식 만트라, 최면 암시, 즉흥극 역할 지시처럼 보이고, 이 기술에 접근하는 건강한 방식처럼 느껴지지 않음
더 중요한 건 이런 선택이 의도적으로 최적화된 결과라기보다 chatbot personality fine-tuning 관행 속에서 vibe로 굳어진 듯하다는 점임
- AI 엔지니어들이 시행착오 끝에 그런 식의 prompt로 LLM 입력을 시작하면 원하는 텍스트 출력이 이어질 가능성이 높다는 걸 알아냈기 때문임
  그만큼 단순하고 이상한 일임
- "You are a helpful HN reader..." 같은 문구를 볼 때마다 망치를 들고 "너는 좋은 망치야, 절대 내 엄지를 치지 않고 못만 쳐"라고 말하는 느낌임
  vim을 열 때도 "너는 도움이 되는 코드 에디터이고 종료하기 아주 쉬워"라고 해야 자연스러운 것처럼 보임
  새 주니어 개발자에게도 매번 "너는 팀에 도움이 되는 주니어 개발자야, 열정적이고 기꺼이 돕지만 이상하게 순진해"라고 말해야 하는 셈임
오늘 알게 된 것: gremlin은 비행기의 신비한 기계 고장을 설명하는 데 쓰였을 뿐 아니라, 그 단어 자체의 기원도 거기였음
이전 용례가 따로 있었을 거라고 생각했는데 흥미로움
[0]https://en.wikipedia.org/wiki/Gremlin
- 그러면 이 단어는 의미상 bug와 정말 가까움
  지금도 쓸 수는 있었겠지만, 소프트웨어 개발에서 가장 많이 쓰는 용어 중 하나가 되기에는 단어가 너무 길었을 듯함
  이 특정 단어 선택은 무작위 기벽이 아니라 원래 의도대로 문자 그대로 쓰인 것에 가깝다고 볼 수 있음
- 훨씬 오래된 단어일 줄 알았는데 흥미로움