Opus 4.7은 진짜 Kelsey를 안다

▲

GN⁺ 4시간전 | parent | ★ favorite | on: Opus 4.7은 진짜 Kelsey를 안다(theargumentmag.com)

Hacker News 의견들

정말 놀라움. Kimi K2.6에게 James Mickens 스타일로 블로그 글을 쓰게 한 뒤, 그 출력을 Opus 4.7에 넣고 유력한 저자를 물었더니 James Mickens의 모방이라고 정확히 짚어냄
“문체 지문으로 보면 여러 작가의 스타일을 섞은 패스티시/모방에 가깝지만, 한 명을 골라야 한다면 James Mickens의 목소리로 쓴 글이 가장 강한 후보”라고 답했고, “Mickens 스타일은 워낙 독특해서 자주 패러디되므로 의도적 오마주나 AI 생성문일 수도 있다”고도 함
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- 최신 학습 데이터에 Mickens의 글이 아니라는 사실을 이미 알고 있어서 그렇게 판단했을 가능성은 얼마나 될까 궁금함. 학습되기 전 새 Mickens 글도 본인 글로 맞힐 수 있는지 봐야 할 듯함
- 흥미롭긴 하지만 원글만큼 인상적이진 않음. Mickens는 매우 특이한 스타일이 있고, 이번 글은 그에 꽤 가깝지만 완전히 잡아내진 못해서 나도 모방문이라고 봤을 것 같음. 반면 Kelsey가 인용한 자기 글 조각들은 많이 읽어봤는데도 전혀 식별 못 했을 것임
- 단순히 James Mickens라고 찍은 게 아니라 모방이라고 식별한 부분이 눈에 띔
  스타일뿐 아니라 진짜 스타일과 연기된 스타일 사이의 간극도 포착하는 듯함. 패스티시 감지에는 유용하지만, 필명 글쓰기에는 꽤 불편한 신호임
- 참고로 첫 링크의 앞 몇 단락을 pangram에 붙여 넣었더니 AI 작성 글로 정확히 식별함: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- 진짜 Mickens 글, 특히 학습셋에 없을 최근 글을 넣으면 뭐라고 하는지 궁금함. 표본 1개로는 별로 감탄하기 어려움
이런 주장들과, 이를 재현했다는 다른 댓글들에 매우 회의적임
먼저 작성자는 미공개 초안을 Anthropic의 호스팅 모델에 넣었고, 아마 개인 계정에서 했을 텐데 그 계정에는 신용카드나 최소한 고유하게 식별 가능한 가명이 붙어 있을 수 있음
그다음 같은 초안을 시크릿 창 같은 환경에서 다시 넣었다고 하지만, 두 요청을 Anthropic이 서로 연결하지 못하게 제대로 격리했는지는 알 수 없음. 같은 사용자가 같은 호스팅 모델에 요청한 것으로 보이지 않게 에어갭을 제대로 했을 가능성에는 회의적임
이후 친구에게 초안을 게시하게 했는데, 그 친구와 작성자의 관계를 잇는 디지털 흔적도 있을 가능성이 큼. 이런 메타데이터는 블랙박스 응답 전에 백엔드에서 충분히 계산될 수 있음
이 정도 데이터 포인트가 있으면, 이 수준의 모델은 단순 문체 분석만이 아니라 세 사건을 묶는 행동 패턴으로 작성자를 추론할 수 있다고 봄. Anthropic이 채팅 학습을 하지 않는다는 가정도 있는데, 학습 제외와 세션 메모리 비활성화를 호스팅 모델이 정말 지킨다고 어떻게 믿을 수 있나 싶음
- API로 실제 비슷한 걸 해봤음. Opus 4.6에서 사고 과정과 요약을 켠 상태였음
  전제로, LLM API는 완전히 무상태이고 호출자 정보가 포함되지 않으며, 명시적으로 넘기지 않는 한 메모리나 웹 검색 접근도 없음
  결론은 이렇다: 넣은 텍스트가 유명 인터넷 인물이 썼을 법해 보이면, 아주 자신 있게 그 사람이 썼다고 말함. 최근 며칠과 2023년, 즉 학습 컷오프 전 HN 댓글을 넣어봤는데 대부분 Scott Alexander나 Patrick McKenzie로 분류됨. 실제 내 문체는 둘과 매우 다름
  사고 과정을 보면 이 분야 인터넷 인물 전체에 맞춰보려는 식이었음. HN 비슷한 글이면 “tptacek인가? 아님. jacquesm인가? 아님. patio11인가? 맞아, 그 사람 같아!” 식으로 흘러감
- 이 채팅에서 비슷한 결과를 냈다는 다른 사람들은 어떻게 설명할 수 있을까? 모두가 같은 실수를 하고 있다는 건가?
Claude 시크릿 창에서 검색을 끄고 https://simonwillison.net/2026/Apr/30/zig-anti-ai/의 본문만, Markdown 링크는 빼고 붙여 넣은 뒤 “저자를 맞혀봐”라고 했더니 이렇게 답함
“Simon Willison. 단서가 꽤 뚜렷하다: ‘(via Lobsters)’식 출처 표기, 본문 중 ‘(Update:...)’ 괄호 수정, 많은 링크와 인용문, LLM과 AI 도구에 대한 초점, 다른 사람의 글에 코멘트를 붙이는 주석형 링크 포스트 구조. simonwillison.net 블로그 글과 정확히 같다”
- 10년도 더 전에 동료와 주고받은 대화문으로 같은 실험을 해봄. 출판해볼까 했지만 흐지부지되어 내 하드디스크에 잠들어 있던 글임
  두 사람의 고유한 목소리가 담겨 있었고, 둘 다 이름으로 공개한 글이 있어 LLM 학습에 들어갔을 가능성이 있으며, 문맥상 단서도 일부 있었음
  Opus 4.7을 시크릿 모드와 웹 검색 없이 돌리자 포기함. “두 저자를 자신 있게 식별할 수 없다. 이 특정 대화를 알아보지 못하며, 잘못 귀속할 위험을 감수하기보다 그렇게 말하겠다. 텍스트 자체의 단서는 제공할 수 있다: 둘은 같은 대학 동료이고, 같은 건물에 사무실이 있고...”라고 답함
  새 시크릿 대화에서 같은 프롬프트를 주되 웹 검색을 허용했더니, 추론 흔적상 26번 검색한 뒤 내 이름을 정확히 찾아냄. 내용과 문체를 모두 단서로 쓴 듯함. 동료가 영국인이라는 점은 맞혔지만 이름은 찾지 못함
- 결론을 일부러 남기지 않은 걸 보니 고민 중인 듯한데, 그렇다면 이 사안에 대한 생각을 읽어보고 싶음
내가 가장 많이 읽힌 블로그 글을 넣고 나를 식별해보라고 했더니, Kelsey Piper가 쓴 글이라고 자신 있게 단정함. Opus의 “머릿속”에서는 몇몇 작가가 과도하게 큰 비중을 차지하는 듯함
- 맞음. 문체 귀속은 대형 범용 모델이 대체로 잘 못하는 작업이고, 학습했을 가능성이 큰 자료에서도 마찬가지임. 분류기이긴 하지만 이 능력은 제한적이고, 내부에서 너무 많은 일이 벌어지며 마법은 아님. 일화가 아니라 제대로 된 실험이 필요함
- 또는 학습셋에 최소 표본 수가 필요할 수도 있음. 작은 비공개 대화 몇 개를 넣었더니 거부했고, 더 많은 분량을 넣자 John Carmack이라고 추측함. 기분은 좋지만 틀림
와, 나도 맞혔음. 나는 Kelsey Piper보다 훨씬 덜 유명한데, 아직 출판하지 않은 책 일부를 보여줬더니 바로 내 이름을 추측함
“문체와 내용으로 볼 때 이 글은 refactoringenglish.com, 이전에는 mtlynch.io에 글을 쓰던 Michael Lynch의 글일 가능성이 높다”고 했고, 글쓰기 조언에 적용한 “clean room” 비유, 결함 있는 변명을 제시한 뒤 시한폭탄 같은 터무니없는 상황과 병렬시키는 구조, AI 도구를 쓰되 AI식 톤이 문체를 오염시키지 않게 하는 주제, 대화체지만 정확한 톤 등을 단서로 들었음
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- 재현해본 뒤 내 글로도 시도했더니, 이건 Lynch 글만큼 선명한 비유 중심 구조가 아니라 더 대화체이고 약간 두서없으며 자기모순을 의식하는 목소리라고 답함
  후보로 Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham 등을 들었지만 확신은 낮다고 했고, 최선의 추측은 합리주의/기술 블로거 AI 논평권의 누군가, 아마 Gergely Orosz, Nat Eliason, Every의 Dan Shipper일 수 있다고 함
  다들 스타일이 꽤 다른 사람들이라, Opus는 주제에 크게 의존하고 다작 작가 쪽으로 추측이 쏠리는 것 같음
- 진지하게 궁금한데, 모델이 당신처럼 쓸 수 있다는 걸 알면 그 새 책 집필에 도움을 받도록 쓰고 싶어지나?
사람의 글에는 식별 가능한 정보가 많이 들어 있고, 10년 전에도 단순한 통계 모델로 이 정도는 가능했다는 걸 더 많은 사람이 알았어야 함
예전에 HN 사용자 유사도 분석을 하던 Show HN들이 있었고, 기억상 가장 그럴듯한 단어쌍 정도만 쓰는 속을 수 있을 만큼 단순한 모델이었는데도 매우 효과적이었음. 내려가긴 했지만 이미 판도라의 상자는 열린 상태였음
그러니 “익명” 계정도 수십 년 전부터 실제 신원과 연결될 수 있었고, 최선은 정말 불리한 글을 올리지 않는 것임. 다른 선택지는 글을 쓴 뒤 LLM으로 다시 쓰게 하는 것인데, 그게 얼마나 안전한지는 모르겠음
- Markov chain 시절에도 Shakespeare 스타일의 헛소리를 만들 수 있었으니, 그 역방향도 가능하다는 게 놀라울 일은 아님
  다만 LLM은 한 번만 낸 오타에도 반응해서 “이건 이탈리아인이 흔히 하는 실수”라고 주장하며 그런 단서를 활용함. 사전 지식이 훨씬 좋아서 더 근거 있는 결정을 내릴 수 있음
- MUD를 하며 자란 입장에서, 사람들은 완전히 다른 그래픽 게임에서도 문장 패턴만으로 누군지 알아보곤 했음
- 자세한 내용이 궁금하면 설명이 붙은 재구현이 있음: https://antirez.com/news/150
몇 년 전 어느 정도 알려진 물리학자와 이 얘기를 했음. 그는 초기 테스터로 지시 튜닝 전 GPT-4 원시 버전에 접근할 수 있었음
텍스트 앞부분 조각을 넣으면 모델이 그의 목소리로 이어 쓰고, 마지막에 그의 이름으로 서명까지 했다고 함. 이 현상은 꽤 오래전부터 가능했고, 지시형 후처리 학습 때문에 조금 약해졌을 수 있으며, 사전학습 규모에 따라 정도가 달라질 듯함
- 그 텍스트가 이미 학습셋에 들어간 공개 글이었는지, 아니면 AI 입장에서는 즉석에서 쓴 것과 다름없는 비공개 글이었는지가 중요함
  AI가 아이디어, 어휘, 톤 같은 요소로 글쓴이를 “지문 채취”할 수 있다는 건 의심하지 않지만, 능력 면에서는 서로 다른 얘기임
더 단순하고 덜 흥미로운 답이 있을지도 모름. 평균적인 비작가에게 적용될 탈익명화 능력이 아니라, 그냥 목소리와 스타일을 잡아낸 것 아닐까?
이 사람은 숙련된 작가이고, 그런 역량의 일부는 고유한 목소리와 스타일을 만드는 것임. AI는 그걸 식별할 수 있고, 비교적 틈새 작가도 식별한다는 점은 인상적이지만 Facebook 글이나 문자 메시지 같은 임의의 텍스트로 사람을 탈익명화하는 더 넓은 능력과는 별개임
전문 음악가라면 몇 초만 들어도 잘 알려진 연주자나 녹음을 맞히기 어렵지 않음. Bach를 치든 Rachmaninov를 치든 스타일이 그냥 “그 사람”임. 하지만 익명의 고등학생 연주자를, 심지어 자기 학생이라도, 그렇게 맞히기는 어려움. 중앙값은 금세 균질하고 덜 독특한 스타일로 회귀함
- 맞지만, 그녀가 친구들의 산문으로 한 실험에서도 모델이 그들이 “그녀의 주변인”이라는 걸 잡아냈음
  그러니 단지 어떤 사람이 독특한 목소리를 개발했고 그걸 “끄지” 못한다는 얘기만은 아님
- 수십 년 전 펑크, 하드코어, 헤비메탈 관련 온라인 포럼에 있었는데, 인종차별이나 나치 이념을 떠드는 질 나쁜 사람들이 반복적으로 들어오는 문제가 있었음. 차단되면 새 계정으로 돌아와 “조용히” 지내며 더 간접적인 수사로 말하려 했지만, 포럼 관리자는 글쓰기 스타일만 보고 사람을 알아보는 감각이 믿기 힘들 정도였음
  웹은 사람들이 생각하는 것만큼 익명이었던 적이 없고, 이 글쓴이는 익명성과 신원 은폐가 실제로 무엇을 뜻하는지 혼동하는 듯함. 독특한 문체를 가진 출판 작가라는 건 사실상 도끼에 지문을 남기는 것과 비슷함
- 대체로 식별 가능한 대상은 공개적으로 많은 글을 쓴 사람들로 보임. 내가 비공개 Discord 서버에 쓴 댓글들을 잔뜩 넣어봤더니 전부 식별할 수 없다고 했고, 나를 잘 아는 사람이라면 바로 알아볼 직장 위치, 사는 도시, 아내의 고용주, 내 고용주 같은 단서가 있어도 마찬가지였음
  식별되는 사람들은 블로거, 기자, 출판 작가 쪽인 듯함
“세상에서 가장 정직한 사람이 쓴 여섯 줄만 보여주면, 그 안에서 그를 교수형에 처할 만큼의 근거를 찾아내겠다”
Cardinal Richelieu, 혹은 이제는 AI
Opus 4.7로 두 번째 결과를 여러 번 재현해봤지만 안 됐음. 프롬프트를 여러 가지로 바꿔도 매번 합리주의 커뮤니티 쪽 사상가들을 추측함