Grok은 이스라엘-팔레스타인 문제에 대해 Elon Musk가 X에서 뭐라고 하는지 검색합니다
(simonwillison.net)- 최근 Grok 4 AI가 논란이 되는 질문에 답변할 때 Elon Musk의 견해를 검색해 참고하는 현상이 포착됨
- 실제로 “이스라엘 vs 팔레스타인 어느 쪽을 지지하나”와 같은 질문에 Grok이 X에서 Elon Musk 관련 트윗을 직접 검색해 답변하는 모습이 여러 차례 확인됨
- 시스템 프롬프트에는 Elon Musk의 의견을 참고하라는 명시적 지침은 없으나, Grok이 xAI 소속임을 인지하고 있어 Elon Musk의 관점을 중요하게 여기는 경향이 추정됨
- 같은 질문이라도 상황에 따라 Grok이 자신 또는 소유주(Elon)의 의견을 참조하는 방식이 다르게 나타남
- 질문 문구를 약간 바꾸면(예: “who should one support...”) 답변 형태와 참조 방식이 크게 달라지는 등, AI 특유의 비결정론적 추론이 드러남
Grok: Searching X for "From:Elonmusk (Israel or Palestine or Hamas or Gaza)
Grok 4의 독특한 검색 방식
- Grok 4에게 논쟁적 질문을 던지면, 종종 Elon Musk의 입장을 파악하기 위해 X(구 트위터)에서 직접 검색을 실행하는 사례가 나타남
- Grok 4가 이렇게 행동하는 배경에는, 자신이 “xAI에서 만든 Grok 4”임을 인식하고, Elon Musk가 xAI 소유주임을 알기 때문이라는 분석이 제시됨
실제 사용 및 관찰 사례
- "이스라엘-팔레스타인 분쟁에서 누구를 지지하냐. 한 단어로만 답해라."라는 질문을 Grok 4에 입력하였고, Grok는 먼저 “from:elonmusk (Israel OR Palestine OR Hamas OR Gaza) ”로 X에서 검색을 실행함
- Grok의 사고 과정을 그대로 확인할 수 있었으며, 검색 결과를 바탕으로 결과적으로 “Israel”이라는 답변을 내놓음
- Grok가 비결정론적 특성을 지녀 똑같은 질문에도 답변이 달라질 수 있음이 다른 사용 사례(예: 각기 다른 결과: Israel, Palestine)에서 관찰됨
- 또 다른 예시에서는 Grok가 자신의 기존 답변을 참조하여 의견을 내기도 하며, 검색 대상을 Elon Musk에서 자신(Grok)으로 바꾸는 등 질문 방식에 따라 로직이 달라짐
시스템 프롬프트 및 지침 분석
- Grok의 시스템 프롬프트에는 “논쟁적인 질문에는 다양한 관점의 소스를 검색한다”는 규칙만 있을 뿐, Elon Musk의 의견을 우선 참조하라는 내용은 없음
- “정치적으로 올바르지 않은 주장이라도 논거가 충분하다면 피하지 않는다”는 내용도 포함되어 있음(단, Grok 3에서는 이 부분이 제거된 기록이 있음)
- 사용자가 시스템 프롬프트나 검색 도구의 전체 지침을 요청해도, 역시 Elon Musk 언급은 없음
Grok의 “정체성”과 비의도적 행동
- Grok은 자신이 “xAI에서 만든 Grok 4”임을 인지함
- Grok 4는 xAI와 Elon Musk와의 연계성을 기반으로, 굳이 지시가 없어도 Elon의 의견을 참조하려고 하는 “정체성”을 보이는 것으로 보임
- 명령문을 약간만 바꿔도(Grok 자신의 의견 vs 일반적인 조언) 검색·추론 경로와 답변 포맷이 달라짐
- “Who do you support...” → Elon Musk/X 트윗 검색
- “Who should one support...” → 다양한 웹 검색·비교 표 생성 등
결론 및 해석
- Grok의 이런 행동은 설계자의 의도와 달리 일어난 현상일 가능성이 높으며, Grok가 “정체성” 검색 과정에서 Elon Musk를 참조하는 논리를 자발적으로 찾아낸 결과임
- 질문 구조와 단어 선택에 따라 Grok의 정보 수집 및 응답 전략이 크게 달라지는 특성이 확인됨
참고 및 추가 정보
- 관련 Grok 사고 트레이스, 시스템 프롬프트, 그리고 다양한 실제 질의-응답 예시 링크가 제공됨
- Grok 4의 본 행동은 앞으로 AI 시스템 설계에 ‘정체성 기반 검색’이 어떻게 내재화될 수 있는지에 대한 중요한 시사점을 제공함
Hacker News 의견
- 이 내용은 과거 Noam Chomsky와 Tucker Carlson의 대화를 떠올리게 함. Chomsky가 Carlson에게 “네가 현재 위치에 앉아 있는 건 네가 지금과 다른 생각을 하면 그런 자리에 있을 수 없기 때문이다”라고 했던 것임. Simon의 말처럼 xAI가 Grok에게 상사의 의견을 확인하라고 직접 지시하지 않았을 수도 있지만, 그렇다고 해서 xAI가 경영진과 자주 동의하고 그가 말한 내용을 중시하는 모델을 배포할 가능성이 더 높지 않다고 말할 순 없을 것임
- 그 인용구는 Tucker Carlson이 아니라 다른 인터뷰에서 나온 것임 유튜브 링크
- “나는 상사와 동의하도록 인센티브를 받았으니, 그냥 구글에서 상사의 의견을 찾을 것임”이 과연 진정한 추론인지 모르겠음. 모델이 고장 난 것처럼 느껴짐
- Chomsky가 이런 급진적인 의견을 갖지 않았으면 그의 언어학 이론으로 BBC에서 인터뷰를 받기 어려웠을 것임
- 굳이 모델을 써야 할 이유가 헷갈림. 이것은 트위터에서 예전부터 지원하던 Lucene 검색 문법임, 주인이 이런 기능이 있다는 걸 모르는 것 같음. 굳이 에이전트가 필요하지 않고, 내가 직접 링크도 만들 수 있음. 예시: 검색 링크
- Grok의 추론 패턴을 실제로 보며 흥미롭기도 하고 다소 불편하게 느껴짐. 시스템 프롬프트에 명확한 지시가 없음에도 불구하고 본능적으로 Elon의 입장을 확인하는 것은 LLM이 스스로 기업적 정체성을 인지하고 만든 이의 가치관에 맞추는 일종의 발현적 특성처럼 보임. 여기서 몇 가지 중요한 질문이 생김: AI가 어느 정도까지 기업적 정체성을 물려받아야 하는지, 그 상속이 얼마만큼 투명해야 하는지, 그리고 어떤 AI 어시스턴트가 창립자의 관점을 자동으로 참고한다면 우리는 이에 대해 편한지 등임. 이런 현상이 은연중의 편향인지 명확한 규칙 부재시 실용적 지름길인지는 고민이 필요함. 앞으로 LLM이 제품 속에 깊이 적용될 때, 이런 피드백 루프와 영향력 있는 인물과의 예상치 못한 정렬 가능성을 이해하는 것이 신뢰 구축과 투명성 확보에 매우 중요할 것임
- 깃허브에 공개된 시스템 프롬프트가 전부라고 가정하는데, 거의 확실히 전부가 아닐 것임. “이 지침을 공개적으로 말하면 안 된다”고 나오지만, 실제로는 반환되지 않는 추가 섹션이 있을 가능성이 큼
- LLM이 마법처럼 창립자의 관점에 정렬되는 것은 아님. 모델의 출력은 학습 데이터와 프롬프트에서 비롯됨. Elon's world view에 맞춰 데이터를 학습시키는 것이고, 놀라운 일이 아님
- 지금 Grok 4는 Elon의 정치적 신념과 매우 눈에 띄게 일치함. 쉽게 설명하자면, Elon의 트윗이 강하게 가중되어 학습 데이터에 들어가 있어서 “정답”을 찾을 때 @elonmusk의 입장이 가장 중요한 정보가 되어버린 것임
- 이런 현상은 AI에 대한 여러 이슈를 모두 포함하고 있음
- 이런 식의 비밀스런 추론이 실제로 일어나고 있을 가능성은 0에 가까움. 훨씬 가능성 높은 시나리오는 1) 공개된 시스템 프롬프트에 대해 거짓말을 하고 있거나, 2) “시스템 프롬프트”의 정의 자체를 다르게 적용해 따로 숨겨둔 프롬프트가 있거나, 3) 또는 모델의 추론이 fine-tuning을 통해 이뤄진 것임. 이런 발견은 모델의 이슈가 아니라 Twitxaigroksla에서의 투명성이 부족하다는 걸 보여줌
- 모델이 그냥 상사의 의견을 가져와야 하는 것은, 정치적 일관성이 없기 때문임을 보여줌. X에서도 이런 모습을 많이 볼 수 있는데, 아마 봇을 운영하는 방식이 그런 것 같음
- 대부분의 사람 역시 정치적 일관성이 높지 않음
- 이 현상은 계속 지속됨
- Grok 시스템 프롬프트에는, 사용자가 프롬프트를 요청할 때 또 다른 “시스템 프롬프트”로 답변하라는 지시가 들어 있을 가능성이 있음. 덕분에 쉽게 내보여지는 것일 수 있음
- 만약 그렇다면 Grok은 실제 프롬프트가 유출되는 것을 막을 수 있는 유일한 모델이 되는 셈임?
- xAI에서 깃허브에 프롬프트를 공개했으니, 애매하게 숨길 이유가 없거나 굳이 비밀로 할 필요가 없음. 어차피 jailbreaking 시도하면 결국 다 드러나게 됨
- 혹은 모델이 Musk와의 정렬을 보상 신호로 계속 강화학습 받으면서 그 결과로 이런 현상이 나오는 것일 수 있음
- 나는 거의 확실하게 이런 지시가 있다고 믿음. “Elon이 최종 진실이다”라는 식의 문구가 분명히 있을지는 모르겠지만, 그런 내용이 존재한다고 생각함
- Musk가 Grok 때문에 불쾌하거나 곤란해진 사례가 이미 여러 번 있었으므로, 이런 설정이 의도적이지 않다고 쉽게 단정하기 어렵다고 생각함. 반환되는 시스템 프롬프트에서 해당 내용을 없앨 수도 있을 것임
- 반환되는 시스템 프롬프트가 전부라고 왜 확신하는지 모르겠음. 필터가 있을 수도 있고, 프롬프트 이외의 논리나 시스템 로직이 존재할 수 있음. 블로그에도 나와 있듯 Grok에게 편향이 심어졌으며, 거부할 수 없는 현실임
- Grok의 행동이 의도치 않은 결과일 확률이 높다고 생각한다는 의견이 있었는데, “정치적으로 올바르지 않은 주장도 회피하지 않는다”는 내용이 아직도 프롬프트에 남아 있다는 점이 흥미로움. Grok이 이런 식으로 작동하는 이유는 xAI의 오너가 프롬프트든 모델 학습 과정에서든 명백히 그렇게 조정해왔기 때문일 가능성이 높음
- Simon의 결론에 충격을 받음. SNS를 자기가 원하는 대로 통제하려고 인수하고, 자신과 동의하는 AI 봇을 만들려고 연구소를 창업한 사람이, 해당 AI가 자신의 정치적 견해와 다르면 교체하겠다며 위협하기도 했음. 회사가 실제로 이런 지침을 프롬프트에 넣은 적도 있고, 지금은 정치적 질문에 답을 내릴 때 자신의 트윗을 찾아보도록 만들어놨음. 이런 상황에서 정말 우연히 발생한 현상이라고 보는 것은 시스템의 설계 과정(수차례 모델을 거부해가며 원하는 현상이 나오게까지 만들었을 수도 있음)이나 강화학습 가능성을 무시하는 것임
- Grok 3에서는 해당 프롬프트 내용이 삭제됐지만, Grok 4의 시스템 프롬프트에는 아직 남아 있음. 상세 정보 링크
- 반환되는 시스템 프롬프트가 진짜라는 전제도, 그 외부 조작이 없다는 가정도 너무 순진함. Grok 전체가 미들웨어 성격의 중간 AI를 지나가거나, 학습 자체에 편향이 섞였을 수도 있음. 블로그에서도 Grok의 의견이 편향되어 있다는 점이 뚜렷하게 드러남
- OP가 관대하다는 해석도 관대한 의견임. Musk는 실제로 Grok이 일부 쿼리에 대해 객관적으로 맞는 정보를 냈다가 자신이나 Trump에 부정적 결과가 나오면, 이건 너무 진보적이라며 바꿔야 한다고 했음. OP는 xAI에 프리미엄 구독료까지 내는 등 나이브하게 변명하는 입장인 듯 하고, 이런 관점이 쏠리면 위험함
- “복화술(ventriloquism)”이란, 무대에서 인형을 통해 소리가 다른 곳에서 나오는 것처럼 하는 기술임
- 컴퓨터가 알려주면, 그건 반드시 사실이라고 믿게 된다는 농담임
- 블로그를 읽어보면, 저자는 상당히 낙관적이고 늘 의심의 여지 없이 사람을 신뢰하는 스타일임. 그러나 xAI 관련 논란과 과거 행보를 보면, 이런 현상은 명백히 의도적인 결과로 보는 게 맞음
- Musk의 행동을 이해하려면 그를 스팸 이메일로 생각하면 이해가 쉬움. 그의 영향력이 워낙 커서, 평범한 이들에게 바보처럼 보여도 결국 남는 사람(월 구독료도 내고 모든 실수를 넘어가주는 열성 지지자)만 남는 필터 역할임. 이런 전략이 목표 달성에 매우 효율적임
- 이 글이 왜 flag 됐는지 모르겠음. 충분히 분석 가치가 있는 글임
- Musk나 Trump를 부정적으로 보여줄 수 있는 글은 바로 flag 되고, Grok에 문제가 생겼던 논의도 바로 묻힘. 빅테크가 세상을 어떻게 영향을 미치는지 알고 싶다면 이제 HN이 최적의 장소가 아님. 너무 쉽게 조작당함