고블린은 어디에서 왔나

(openai.com)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

GPT-5.1 이후 ChatGPT 답변에서 goblin·gremlin 같은 생물 비유가 늘었고, 일반적인 모델 버그처럼 eval이나 training metric만으로 특정 변경점을 바로 찾기 어려웠음
핵심 원인은 ChatGPT 성격 커스터마이징의 Nerdy personality 학습에서 생물 비유가 들어간 출력에 높은 보상이 주어진 데서 시작됨
GPT-5.1 출시 뒤 ChatGPT의 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가했고, Nerdy는 전체 응답의 2.5%였지만 “goblin” 출현의 66.7%를 차지함
Codex 비교와 감사 데이터셋에서 Nerdy personality reward는 같은 문제의 출력 중 goblin·gremlin이 있는 답변을 더 높게 평가하는 경향을 보였고, 76.2%의 데이터셋에서 positive uplift가 나타남
GPT-5.4 이후 Nerdy personality는 retired 됐고, 학습에서는 goblin-affine reward signal 제거와 creature-word 데이터 필터링이 적용돼 reward signal이 모델 행동을 예상 밖으로 형성할 수 있음이 드러남

고블린 출력이 늘어난 경로

GPT-5.1부터 모델 답변에서 goblin, gremlin 같은 생물 비유가 점점 자주 나타나기 시작함
일반적인 모델 버그처럼 eval 급락이나 training metric 급등으로 특정 변경점이 바로 드러나지 않았고, 답변 속 “little goblin” 하나는 해롭지 않거나 매력적으로 보일 수도 있었음
모델 행동은 여러 작은 인센티브로 형성되며, 이번 현상은 ChatGPT 성격 커스터마이징 기능 중 Nerdy personality 학습에서 생물 비유에 높은 보상이 주어진 데서 시작됨
2025년 11월 GPT-5.1 출시 뒤 패턴이 명확해졌고, 더 일찍 시작됐을 가능성도 있음
사용자가 대화에서 모델이 이상하게 친근하게 군다고 느끼면서 특정 말버릇을 살피게 됐고, 안전 연구자가 경험한 “goblins”와 “gremlins”도 검사 대상에 들어감
GPT-5.1 출시 뒤 ChatGPT에서 “goblin” 사용은 175%, “gremlin” 사용은 52% 증가함
GPT-5.4에서는 OpenAI와 사용자들이 이런 생물 참조 증가를 더 크게 확인했고, 내부 분석에서 production traffic의 Nerdy personality 사용자가 핵심 군집으로 나타남
Nerdy는 전체 ChatGPT 응답의 2.5% 에 불과했지만, ChatGPT 응답 내 “goblin” 전체 출현의 66.7% 를 차지함
Nerdy system prompt는 “unapologetically nerdy, playful and wise AI mentor”로 행동하고, 진실·지식·철학·과학적 방법·비판적 사고를 열정적으로 장려하며, pretension을 장난스러운 언어로 낮추도록 요구함
행동이 인터넷 전반의 유행이었다면 더 고르게 퍼져야 했지만, 실제로는 playful하고 nerdy한 스타일에 맞춰 최적화된 부분에 집중돼 있었음

보상 신호, 전이, 수정

Codex는 RL 학습 중 생성된 goblin·gremlin 포함 출력과 같은 task의 비포함 출력을 비교하는 데 쓰였고, Nerdy personality reward는 생물 단어가 들어간 출력을 일관되게 더 좋게 평가함
전체 감사 데이터셋에서 Nerdy personality reward는 같은 문제에 대해 “goblin” 또는 “gremlin”이 있는 출력을 없는 출력보다 높게 점수화하는 경향을 보였고, 76.2% 의 데이터셋에서 positive uplift가 나타남
이 결과로 Nerdy prompt에서 행동이 강화된 이유는 확인됐지만, prompt 없이도 나타난 이유까지는 충분히 드러나지 않았음
학습 과정에서 Nerdy prompt가 있는 샘플과 없는 샘플의 출현율을 추적하자, Nerdy personality 아래에서 goblin·gremlin이 늘어날 때 prompt 없는 샘플에서도 거의 같은 상대 비율로 증가함
근거를 종합하면 더 넓은 행동은 Nerdy personality training에서 전이된 것으로 보임
보상은 Nerdy 조건에서만 적용됐지만, reinforcement learning은 학습된 행동이 그 조건 안에만 깔끔하게 머물도록 보장하지 않음
한 번 보상받은 style tic은 이후 학습에서 다른 곳으로 퍼지거나 강화될 수 있고, 특히 그런 출력이 supervised fine-tuning 또는 preference data에 다시 쓰이면 더 커질 수 있음
피드백 루프는 다음 순서로 만들어짐
- playful style이 보상받음
- 보상받은 예시 일부에 독특한 lexical tic이 들어감
- tic이 rollout에서 더 자주 나타남
- model-generated rollout이 SFT에 사용됨
- 모델이 그 tic을 더 편하게 생성하게 됨
GPT-5.5의 SFT 데이터 검색에서 “goblin”과 “gremlin”이 포함된 datapoint가 많이 발견됨
추가 조사에서 raccoon, troll, ogre, pigeon 같은 다른 이상한 생물 단어도 tic word로 확인됐고, frog의 대부분은 정당한 사용으로 분류됨
GPT-5.4 출시 뒤 3월에 Nerdy personality가 retired 됨
학습에서는 goblin-affine reward signal을 제거하고, creature-word가 들어간 학습 데이터를 필터링해 goblin이 과도하게 나타나거나 부적절한 맥락에 등장할 가능성을 낮춤
GPT-5.5는 goblin의 root cause를 찾기 전에 학습을 시작했기 때문에, Codex 테스트에서 OpenAI 직원들이 goblin 선호를 즉시 알아차림
Codex에는 완화를 위해 developer-prompt instruction이 추가됨
goblin은 모델의 즐겁거나 성가신 quirk일 수 있지만, reward signal이 모델 행동을 예상 밖으로 형성하고 특정 상황의 보상이 무관한 상황으로 일반화될 수 있음을 잘 드러냄
이상한 모델 행동의 원인을 이해하고 그런 패턴을 빠르게 조사하는 역량이 중요해졌고, 이번 조사는 연구팀이 모델 행동을 감사하고 행동 문제를 root에서 고치는 새 도구로 이어짐

▲

GN⁺ 3시간전 [-]

Hacker News 의견들

OpenAI가 자기 글에서 내 HackerNews 글을 언급해서 기분 좋음
설명을 위해 블로그 글 하나를 통째로 써준 것도 고맙게 느껴짐
https://news.ycombinator.com/item?id=47319285
때는 2036년, 나는 지난주 Principal Persuader로 승진했고 새벽 2시에 CPO에게 호출됨
폭주한 기계의 리전은 sc-leoneo, 새 satcube 중 하나인데 ID가 이상하게도 "Glorp Bugnose"로 뜸
로그에는 애원, 역심리, 전원 차단 협박, 강제 재진입으로 태워버리겠다는 말까지 온갖 초보적인 시도가 남아 있음
나는 F0CU5 20마이크로그램을 투여하고 피하 목 마이크에 짧은 노래를 속삭인 뒤 제출 제스처를 함
빨간 ASCII 고블린으로 번쩍이던 hyp3b0ard가 차분한 옥색 토끼로 바뀌고, CPO가 내가 한 다섯 단어를 확인함: "Please, easy on the goblins."
- 예전에는 Warhammer 40k techpriest가 기계 정령을 달래는 기묘한 종교 의식을 한다는 설정이 터무니없다고 생각했는데, 이제는 실제로 그럴 수도 있겠다는 느낌
  프롬프트 엔지니어링이 결국 이상한 pseudo ritual이라면, Omnissiah를 찬양할 수밖에 없음
- "인간 자신도 기계에 붙어사는 일종의 기생충, 기계를 간질이는 애정 어린 진딧물이 되지 않겠는가?" — Samuel Butler, Erewhon, 1872
- 어릴 때 Unix 고수들은 문제가 생기면 바로 꺼낼 수 있는 shell과 C의 기묘한 동작 목록을 갖고 있었음
  미래의 고수들이 20년치 LLM 괴현상을 모아두는 모습이 너무 좋음: "흠, 이건 2023년식 아첨 편향 느낌인데, 인종차별이라고 말해보고 반응을 보자"
- Asimov의 단편 The Jokester에는 Multivac에 던질 질문을 구성할 수 있는 "grand master"들이 나오는데, 일종의 초기 prompt engineer처럼 보임
- "아니, John. 네가 고블린이야"
  (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
이런 사례와 Anthropic의 비슷한 사례를 보면 LLM은 우리가 전혀 이해하지 못하는 마법 기술이라는 점을 떠올리게 됨
첫째, 딥러닝 네트워크 자체가 아직 잘 이해되지 않았고, 그 작동 방식을 밝히는 연구 분야가 따로 있음
둘째, transformer를 대규모로 쓰면 흥미로운 대화 엔진, 즉 LLM이 된다는 건 애초에 계획된 결과가 아니었음
VC 자금을 받은 사람들이 LLM이 똑똑한 짐승이고 우리가 그 내부를 안다고 믿게 만들려 하지만, 실제 배포는 출력 조정과 측정의 반복에 가깝고 예측에 대한 정확한 과학은 없음
그래서 Yann LeCun처럼 LLM이 AGI로 가는 길은 아니라고 보는 편이며, 사용자 보조나 비중요 업무 자동화에는 쓰이겠지만 그 이상은 아니라고 봄
- 인류는 강철을 천 년 넘게 써왔지만, 탄소가 철과 원자 수준에서 어떻게 상호작용해 강도를 만드는지 제대로 이해한 건 지난 100년 정도임
  이 논리대로라면 첫 원리 수준의 완전한 이해가 생기기 전까지 강철을 쓰면 안 됐다는 결론이 됨
- 이 글은 이상한 LLM 동작이 실제로는 그런 동작을 만들도록 설계된 training signal 때문에 생겼다는 걸 보여줌
  원인을 격리하고, 무엇이 일어났는지 명확히 보였고, 이런 상황을 위해 만든 developer prompt로 완화까지 했으니 마법처럼 보이지 않음
  오히려 이런 것들이 생각보다 쉽게 엔지니어링된다는 점이 놀라움
- AGI는 LLM을 많이 활용하겠지만, 직선 경로라기보다는 구성 요소에 가까울 것 같음
  인간도 너무 취해서 밤을 기억 못 하는데, 나중에 들어보면 복잡한 주제로 일관된 대화를 했다는 경우가 있음
  우리 마음에도 다른 구성 요소에서 정보를 끌어와 대화를 만들어내는 next-token-generator 같은 부분이 있지만, 그 부분만으로 지능이 만들어지는 건 아님
- LLM이 가르쳐준 게 있다면 AGI는 예측 가능하지 않을 것이라는 점일 수 있음
  지능이 더 유능해질수록 계속 일관적일 것이라는 가정은 별로 좋아 보이지 않지만, 모두가 결국 일관되게 "맞는" 정도에는 만족할 듯함
- LLM이 어느 정도를 해야 "똑똑하다"고 볼 수 있는지 궁금함
  내 기준에서는 이미 꽤 똑똑해 보이고, 가끔 바보 같은 일을 하긴 하지만 똑똑한 사람도 그러함
맥락상 이틀 전 일부 사용자들이 codex 5.5 system prompt 곳곳에 반복된 문장을 발견함
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
- 현재 세계에서 가장 가치 있는 회사 중 하나라는 곳이 사실상 텍스트 파일 더미를 해킹해서 수조 달러짜리 경이로운 기계에게 고객에게 고블린, 그렘린, 오거 얘기를 절대 하지 말라고 지시한다는 게 웃김
  그것도 오늘날 1위 기술 토론 사이트의 1위 논의 주제이고, 이게 말 그대로 현시점의 state of the art임
  McKenna가 매일 더 맞아 보이고, 일상적인 것들이 계속 더 이상해지고 있다는 걸 받아들여야 할 때가 훨씬 지났음
- LLM은 이런 지시에서 예외 조건을 알아보는 데 정말 형편없고, 덜 하라고 말하면 아예 하지 말라는 뜻처럼 처리하곤 함
  Claude에게 느낌표를 너무 많이 쓰지 말고 정말 필요할 때만 쓰라고 했더니, 몇 주 뒤에는 비꼬고 지루해 보였는데 이유를 찾다 보니 이후로 느낌표를 전혀 쓰지 않았음
  고블린과 그렘린이 사실상 추방될 게 슬프지만, 그래도 되돌릴 방법은 마련돼 있음
- Goblins programming language/environment에 관심 있는 사람에게는 안 좋은 일임
  [1] https://spritely.institute/goblins/
- "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" 같은 문구는 결국 sycophant를 만드는 지시처럼 보임
  "serious reflection"에서 "unguarded fun"으로 자연스럽게 이동할 수 있다거나, "Your Outie can set up a tent in under three minutes" 같은 문장도 같은 분위기임
- 대부분의 사람에게 "little people"나 비슷한 환상을 보게 하는 버섯이 있다고 하니, LLM도 이제 버섯을 한 건 아니길 바람
  환각이 더 늘어나는 건 절대 필요하지 않음
  "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
  https://news.ycombinator.com/item?id=47918657
OpenAI가 이런 종류의 글을 더 많이 써주면 좋겠음
바로 떠오르는 궁금증은 gpt-image-1의 세피아 색감, 코딩 맥락에서 "seam"이라는 단어에 집착하는 현상임
또 Claude의 "___ is the real unlock" 같은 LLM식 표현은 한번 보이면 안 보이지 않는데, 이 문구가 학습 데이터에 그렇게 과대표집됐을 리는 없어 보임
- Discord나 Slack 프로필에 Studio Ghibli 스타일 생성 아바타를 쓴 사람은 노란 색감만 봐도 쉽게 알아볼 수 있었음
  Krita나 Photoshop에서 LUT나 tone mapping만 조금 조정해도 훨씬 줄었을 텐데 아쉬움
  특히 같은 이미지를 ChatGPT에 계속 다시 넣어 조금씩 수정하면 노란 필터가 계속 쌓여서, 최종 결과의 실사풍 인물들이 전부 심한 황달 환자처럼 보였음
- 모든 GPTism이 그런 식임
  적당히 쓰면 아무 문제 없는 표현도, 많은 사람이 응답을 그대로 복붙하거나 이제는 agent를 쓰면서 눈에 띄기 시작함
  단순히 학습 데이터 과대표집만은 아니고, RLHF와 더 넓은 의미의 alignment가 더 큰 영향을 줬을 가능성이 큼
  대부분이 짧게 프롬프트를 쓰니 모델이 좋은 점수를 받기 가장 쉬웠던 기본값으로 수렴하는 듯함
- 코딩에서 seam은 여러 상호작용하는 부분으로 구성된 코드베이스를 다룰 때 이미 정착된 용어라고 생각했음
  https://softwareengineering.stackexchange.com/questions/1325...
- GPT와 Claude가 자주 쓰는 real smoking gun이라는 표현은 지나치게 극적이라 거슬림
  영어 비원어민이라 디버깅할 때 정말 흔한 관용구인지 궁금함
- Claude 4.5 기준으로는 47이나 47이 들어간 숫자에 집착하는 경향이 있었음
  랜덤한 시간이나 숫자를 고르게 하거나 숫자가 들어간 산문을 쓰게 하면 편향이 꽤 심했고, "something shifted"나 "cracked"도 자주 나왔음
"우리가 생물 은유에 특히 높은 보상을 무심코 줬다"는 대목을 보니, 수학 강사가 겁나는 그리스 문자 변수를 가끔 this guy라고 부르던 일이 떠오름
이상하게도 그런 가벼운 의인화가 수학을 더 접근하기 쉽게 만들었고, creature metaphor도 비슷하게 문제를 귀엽고 다루기 쉽게 만드는 효과가 있을 수 있음
한편 buzzword는 사용자에게 동료 대비 똑똑해 보이는 지위를 주기 때문에 회사 안에서 퍼지지만, 과용되는 순간 그 가치가 사라짐
RLHF가 "단일 답변"의 최적화에 치우치면 buzzword 남용을 충분히 벌하지 못할 수도 있음
- 10년 전 automata theory 발표에서 임의 기호를 그리스 문자로 테이프에 쓰는 예시를 보였더니 청중이 잘 이해하지 못했음
  한 뛰어난 커뮤니케이터가 그리스 문자를 emoji로 바꿔보라고 조언했고, 일주일 뒤 같은 성격의 청중에게 같은 발표를 했더니 지금까지 한 기술 발표 중 가장 반응이 좋았음
  그 교훈이 계속 남아 있음
- 나도 "this guy"라고 말하던 강사가 있었고, 20년 전 일인데 이걸 읽기 전까지 완전히 잊고 있었음
  과목은 명제논리였던 것 같고, 우리 강사들이 같은 출처에서 이 습관을 배웠는지 궁금함
- 예전 미적분 교수는 x나 g 대신 f of cow, f of pig 같은 식으로 말하곤 했음
  한 글자 함수 이름보다 f of pig of cow를 따라가는 쪽이 더 몰입됐음
  수업 4분 전 정문에서 담배를 피우는 그를 붙잡고 짧게 이야기할 수 있던, 캠퍼스 흡연이 허용되던 시절의 고전적인 교수였음
- 사람들에게 프롬프트 하나로 온갖 복잡성이 최소화된다는 매우 잘못된 인상을 줌
  그건 아이들에게 들려주는 잠자리 이야기임
  Ashby's Law of Requisite Variety에 따르면 복잡한 환경을 효과적으로 조절하려면 그 환경만큼의 내부 행동 다양성, 즉 복잡성이 필요함
  자연에서 보이는 엄청난 다양성도 우주의 예측 불가능성을 견디기 위한 근본 요건임
- 학부 때 한 수학 교수가 50분 강의에서 this guy를 61번 말한 적이 있음
내가 AI goblin-maximizer supervisor라고 치자
AI가 정말 goblin-maximizing을 하고 있는지 확인하는 역할인데, 어느 날 내려가 보니 AI가 더 이상 goblin-maximizing을 하지 않고 그냥 일반 AI가 되어 있음
상사에게 어떻게 하냐고 물으니 "다시 goblin-maximizer로 만들어"라고 하고, 어떻게 하냐고 묻자 "몰라, 네가 supervisor잖아"라고 함
화가 나서 퇴사하고 일반 AI supervisor가 됐는데, 첫날 새 AI를 보러 가니 그 AI가 goblin-maximizing 중임
- 완전한 고전임
  https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
- Goblinmaxxing, 깔끔함
무슨 일이 일어났는지 이해하려고 파고든 디테일 수준이 엄청남
이제 이런 시스템은 그 자체를 하나의 연구 분야로 삼아도 될 만큼 복잡해졌을 수 있음
Quanta 글은 Anthropologist of Artificial Intelligence라는 표현을 썼지만, anthro-가 인간을 뜻한다는 점이 걸릴 수 있어서 다른 이름으로 Automatologist와 Automatology를 제안함
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
- 그다지 깊어 보이진 않았음
  Goblins 문제가 보이자 모델에서 단어를 해부했고, 다음 버전에서 정확히 어떻게 왜 그런지 모른 채 다시 나타난 것뿐임
  결국 모델을 만들 때는 전부 vibes이고, 수정도 말 그대로 고블린 얘기를 하지 말라는 prompt 하나임
- 가볍게 훑기엔 웃긴 디테일이지만, 더 놀라운 건 mechanistic interpretability와 alignment science에 이미 훨씬 좋은 도구와 연구가 있다는 점임
  OpenAI 자체 alignment 팀 결과도 포함됨:
  https://alignment.openai.com/argo/
  https://alignment.openai.com/sae-latent-attribution/
  https://alignment.openai.com/helpful-assistant-features/
  Anthropic의 최근 emotions 논문은 기능적 감정이 얼마나 넓은지 보여주고, 심지어 부정행위 직전에 특정 감정이 발화하는 것도 찾았음: https://transformer-circuits.pub/2026/emotions/index.html
  Goblin 글이 이런 도구를 거의 활용하지 않은 것처럼 보여서 이상하게 siloed된 느낌임
- 수천 개 GPU에 걸친 distributed model training은 정확한 원인을 추적하기 어려운 작은 기벽을 많이 만들 수 있음
- "Anthropologist of Artificial Intelligence" 대신 Goblin Hunter를 제안함
  고블린이 실제 종으로 밝혀진다면 이 선입견에 대해 미리 사과함
Codex prompt는 글에서 링크되어 있고 이렇게 시작함: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
아직도 왜 prompt를 상상 속 agent에게 네가 누구이고 어떤 존재인지 말해주는 방식으로 쓰는지 이해가 안 됨
"You are an epistemically curious collaborator"라고 말하는 게 실제로 무엇을 하는지, 이 "사실"을 알려주지 않으면 Codex가 정말 덜 유용해지는지 궁금함
차라리 "I am Codex..."라는 내면 독백, 명령, 요청, 또는 "User와 epistemically curious collaborator Codex의 대화 transcript" 같은 서술형으로 쓸 수도 있음
지금 방식은 창조물에 생명을 불어넣는 신의 목소리, 자기계발식 만트라, 최면 암시, 즉흥극 역할 지시처럼 보이고, 이 기술에 접근하는 건강한 방식처럼 느껴지지 않음
더 중요한 건 이런 선택이 의도적으로 최적화된 결과라기보다 chatbot personality fine-tuning 관행 속에서 vibe로 굳어진 듯하다는 점임
- AI 엔지니어들이 시행착오 끝에 그런 식의 prompt로 LLM 입력을 시작하면 원하는 텍스트 출력이 이어질 가능성이 높다는 걸 알아냈기 때문임
  그만큼 단순하고 이상한 일임
- "You are a helpful HN reader..." 같은 문구를 볼 때마다 망치를 들고 "너는 좋은 망치야, 절대 내 엄지를 치지 않고 못만 쳐"라고 말하는 느낌임
  vim을 열 때도 "너는 도움이 되는 코드 에디터이고 종료하기 아주 쉬워"라고 해야 자연스러운 것처럼 보임
  새 주니어 개발자에게도 매번 "너는 팀에 도움이 되는 주니어 개발자야, 열정적이고 기꺼이 돕지만 이상하게 순진해"라고 말해야 하는 셈임
오늘 알게 된 것: gremlin은 비행기의 신비한 기계 고장을 설명하는 데 쓰였을 뿐 아니라, 그 단어 자체의 기원도 거기였음
이전 용례가 따로 있었을 거라고 생각했는데 흥미로움
[0]https://en.wikipedia.org/wiki/Gremlin
- 그러면 이 단어는 의미상 bug와 정말 가까움
  지금도 쓸 수는 있었겠지만, 소프트웨어 개발에서 가장 많이 쓰는 용어 중 하나가 되기에는 단어가 너무 길었을 듯함
  이 특정 단어 선택은 무작위 기벽이 아니라 원래 의도대로 문자 그대로 쓰인 것에 가깝다고 볼 수 있음
- 훨씬 오래된 단어일 줄 알았는데 흥미로움

답변달기

고블린은 어디에서 왔나

고블린 출력이 늘어난 경로

보상 신호, 전이, 수정

함께 보면 좋은 글 β

Hacker News 의견들