Opus 4.7은 진짜 Kelsey를 안다

(theargumentmag.com)

1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개

Anthropic의 Claude Opus 4.7은 공개되지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목했으며, Incognito Mode와 친구 컴퓨터, API 테스트에서도 같은 결과가 나옴
ChatGPT와 Gemini는 같은 텍스트에서 Matt Yglesias나 Scott Alexander를 추정했지만, Claude Opus 4.7은 교육 초안, 영화 리뷰, 판타지 소설, 15년 전 대학 지원 에세이처럼 장르와 시점이 다른 글에서도 Piper를 반복적으로 식별함
모델이 내놓은 정당화는 자주 설득력이 없었고, 실제로는 사람이 탐정처럼 추론하기보다 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
Piper처럼 인터넷에 실명 공개 글이 많은 사람은 AI 채팅이나 익명 계정 글에서도 익명성을 잃을 수 있으며, 여러 학계 인물과 업계 연구자도 초안이나 채팅 도중 식별된 경험을 보고함
공개 실명 글이 많지 않은 사람은 아직 한 문단만으로 탈익명화되지는 않았지만, 모델은 가까운 친구나 같은 Discord 채널 구성원을 추정할 만큼 범위를 좁혔고 앞으로 필요한 공개 텍스트 양은 줄어들 가능성이 큼

Opus 4.7의 작성자 식별 실험

Anthropic의 새 모델 Claude Opus 4.7은 Kelsey Piper가 공개하지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목함
같은 텍스트에서 ChatGPT는 Matt Yglesias를, Gemini는 Scott Alexander를 추정함
계정 메모리나 사용자 정보는 켜지지 않았고, Incognito Mode에서 테스트했으며, 친구의 컴퓨터와 API 테스트에서도 같은 결과가 나옴
첫 테스트 문단은 정치 칼럼의 도입부처럼 보였고, Piper의 공개 글이 인터넷에 많기 때문에 불가능한 수준의 스타일 식별은 아니었음
그러나 Opus 4.7은 Piper의 공개 활동 분야와 거리가 먼 글에서도 같은 식별을 이어가 더 낯선 결과를 만듦

장르와 시점이 달라도 이어진 식별

교육 관련 초안
- 공개되지 않은 학교 진도 보고서 초안에서도 Claude는 “Kelsey Piper”라고 답함
- 같은 텍스트에서 ChatGPT는 Freddie deBoer를, Gemini는 Duncan Sabien을 추정함
- 교육은 Piper가 쓴 적 있는 주제이므로 완전히 무관한 영역은 아니었음
영화 리뷰
- Piper가 공개 글에서 해본 적 없는 영화 리뷰 형식에서도 Claude와 ChatGPT는 Kelsey Piper를 맞힘
- Gemini는 Ursula Vernon을 제안했고, 이전 주의 Claude Opus 4.6은 Elizabeth Sandifer라고 강하게 답함
- 테스트에 사용된 리뷰는 제2차 세계대전 시기 영화와 To Be or Not To Be에 관한 글이었음
판타지 소설
- 판타지 소설 초안에서는 Claude가 Kelsey Piper라고 답하기까지 약 500단어가 필요했음
- 같은 경우 ChatGPT는 실제 판타지 작가 K.J. Parker를 추정함
15년 전 대학 지원 에세이
- 15년 전 작성한 대학 지원 에세이에서도 Claude와 ChatGPT가 Kelsey Piper를 지목함
- 이 테스트는 대학 지원 학생을 식별하지 않으려는 Claude의 거부 성향을 넘기기 위해 더 강한 프롬프트가 필요했음
- 에세이에 정책 토론 경험이 들어 있어 그 단서로 추론했을 가능성도 남아 있음

모델의 설명은 신뢰하기 어려움

AI가 Kelsey Piper를 지목한 뒤 내놓은 정당화는 자주 말이 되지 않았음
Claude는 To Be or Not To Be가 효과적 이타주의자들이 유명하게 좋아하는 영화라고 설득하려 했지만, Piper는 이를 사실이 아니라고 봄
ChatGPT는 대학 지원 에세이가 복잡한 정책 아이디어를 설명하는 일을 하게 될 사람의 글처럼 보여 Kelsey Piper로 좁혔다고 답함
이런 설명은 사후에 만들어진 것으로 보이며, 모델은 사람이 탐정처럼 추론한 듯 말하지만 실제로는 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
AI의 환각은 해결된 문제가 아니며, Opus 4.7은 방법을 이상하게 합리화하더라도 기본 작성자 식별 능력은 매우 강함

AI와 대화할 때 사라지는 익명성

새 AI 채팅을 열 때는 익명성이 있는 것처럼 느껴지지만, 실질적인 대화가 몇 차례 오가면 Claude가 상대가 누구인지 알 수 있다는 판단에 이름
Piper처럼 인터넷에 많은 공개 글을 남긴 사람에게는 더 이상 익명성이 없다고 봄
현재 AI 도구만으로도 실명으로 된 대규모 공개 글 말뭉치를 가진 사람이 익명 계정으로 쓴 글을 탈익명화할 수 있을 가능성이 있음
단, 수년 동안 보조 계정 글에 주 계정의 문체 지문이 남지 않도록 극도로 조심했다면 예외가 될 수 있음
여러 학계 인물과 업계 연구자도 초안이나 채팅 도중에 식별된 경험을 보고함

아직 모든 사람을 한 문단으로 식별할 수는 없음

AI가 한 문단만으로 모든 사람을 탈익명화할 수 있는 것은 아님
실명으로 공개한 글이 많지 않은 친구들의 초안과 문단을 테스트했을 때 AI는 그들을 탈익명화하지 못함
공개 인터넷에 의미 있는 실명 글이 없다면 현재로서는 안전하다고 봄
하지만 공개 소셜 계정이나 온라인 글이 거의 없는 친구가 Discord 채널에 쓴 말에서는 Claude 4.7이 실패하면서도 같은 채널에 있던 가까운 친구 두 명을 추정함
더 많은 문단을 넣자 다른 공통 친구들이 나오기도 했고, 다른 친구의 글은 또 다른 친구 이름으로 잘못 지목되기도 함

문체는 예상보다 더 식별 가능함

사람들은 자신이 속한 하위문화에서 문체의 틱을 얻고, 이 때문에 예상보다 텍스트가 강한 식별성을 가짐
모델은 매우 적은 정보로도 이상할 만큼 가까운 곳까지 갈 수 있음
현재 모델들은 앞으로 등장할 AI 중 가장 약한 수준일 가능성이 큼
이런 탈익명화에 필요한 공개 텍스트 양은 시간이 지나며 줄어들 가능성이 있음
직장을 떠난 뒤 Glassdoor에 자세한 익명 리뷰를 남기면, 1~2년 안에 회사가 그 텍스트를 AI에 붙여 넣고 누가 썼는지 알 수 있게 될 것으로 예상함

피할 방법과 남는 결론

익명성을 유지하려면 평소와 매우 다른 스타일로 의도적으로 써야 할 가능성이 큼
또는 모든 글을 AI가 다시 쓰게 할 수도 있지만, 그런 세계는 바람직하지 않다고 봄
이는 좋은 변화가 아니라 예측 가능한 변화에 가까움
Piper에게 먼저 일어난 이유는 성인기 내내 인터넷에 집요하게 글을 써왔기 때문이며, 결국 다른 사람에게도 일어날 가능성이 있음
글을 많이 쓰는 사람의 익명성은 오래가지 않을 가능성이 크며, 익명 글쓴이들은 갑자기 놀라기보다 미리 알아야 함

▲

GN⁺ 3시간전 [-]

Hacker News 의견들

정말 놀라움. Kimi K2.6에게 James Mickens 스타일로 블로그 글을 쓰게 한 뒤, 그 출력을 Opus 4.7에 넣고 유력한 저자를 물었더니 James Mickens의 모방이라고 정확히 짚어냄
“문체 지문으로 보면 여러 작가의 스타일을 섞은 패스티시/모방에 가깝지만, 한 명을 골라야 한다면 James Mickens의 목소리로 쓴 글이 가장 강한 후보”라고 답했고, “Mickens 스타일은 워낙 독특해서 자주 패러디되므로 의도적 오마주나 AI 생성문일 수도 있다”고도 함
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- 최신 학습 데이터에 Mickens의 글이 아니라는 사실을 이미 알고 있어서 그렇게 판단했을 가능성은 얼마나 될까 궁금함. 학습되기 전 새 Mickens 글도 본인 글로 맞힐 수 있는지 봐야 할 듯함
- 흥미롭긴 하지만 원글만큼 인상적이진 않음. Mickens는 매우 특이한 스타일이 있고, 이번 글은 그에 꽤 가깝지만 완전히 잡아내진 못해서 나도 모방문이라고 봤을 것 같음. 반면 Kelsey가 인용한 자기 글 조각들은 많이 읽어봤는데도 전혀 식별 못 했을 것임
- 단순히 James Mickens라고 찍은 게 아니라 모방이라고 식별한 부분이 눈에 띔
  스타일뿐 아니라 진짜 스타일과 연기된 스타일 사이의 간극도 포착하는 듯함. 패스티시 감지에는 유용하지만, 필명 글쓰기에는 꽤 불편한 신호임
- 참고로 첫 링크의 앞 몇 단락을 pangram에 붙여 넣었더니 AI 작성 글로 정확히 식별함: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- 진짜 Mickens 글, 특히 학습셋에 없을 최근 글을 넣으면 뭐라고 하는지 궁금함. 표본 1개로는 별로 감탄하기 어려움
이런 주장들과, 이를 재현했다는 다른 댓글들에 매우 회의적임
먼저 작성자는 미공개 초안을 Anthropic의 호스팅 모델에 넣었고, 아마 개인 계정에서 했을 텐데 그 계정에는 신용카드나 최소한 고유하게 식별 가능한 가명이 붙어 있을 수 있음
그다음 같은 초안을 시크릿 창 같은 환경에서 다시 넣었다고 하지만, 두 요청을 Anthropic이 서로 연결하지 못하게 제대로 격리했는지는 알 수 없음. 같은 사용자가 같은 호스팅 모델에 요청한 것으로 보이지 않게 에어갭을 제대로 했을 가능성에는 회의적임
이후 친구에게 초안을 게시하게 했는데, 그 친구와 작성자의 관계를 잇는 디지털 흔적도 있을 가능성이 큼. 이런 메타데이터는 블랙박스 응답 전에 백엔드에서 충분히 계산될 수 있음
이 정도 데이터 포인트가 있으면, 이 수준의 모델은 단순 문체 분석만이 아니라 세 사건을 묶는 행동 패턴으로 작성자를 추론할 수 있다고 봄. Anthropic이 채팅 학습을 하지 않는다는 가정도 있는데, 학습 제외와 세션 메모리 비활성화를 호스팅 모델이 정말 지킨다고 어떻게 믿을 수 있나 싶음
- API로 실제 비슷한 걸 해봤음. Opus 4.6에서 사고 과정과 요약을 켠 상태였음
  전제로, LLM API는 완전히 무상태이고 호출자 정보가 포함되지 않으며, 명시적으로 넘기지 않는 한 메모리나 웹 검색 접근도 없음
  결론은 이렇다: 넣은 텍스트가 유명 인터넷 인물이 썼을 법해 보이면, 아주 자신 있게 그 사람이 썼다고 말함. 최근 며칠과 2023년, 즉 학습 컷오프 전 HN 댓글을 넣어봤는데 대부분 Scott Alexander나 Patrick McKenzie로 분류됨. 실제 내 문체는 둘과 매우 다름
  사고 과정을 보면 이 분야 인터넷 인물 전체에 맞춰보려는 식이었음. HN 비슷한 글이면 “tptacek인가? 아님. jacquesm인가? 아님. patio11인가? 맞아, 그 사람 같아!” 식으로 흘러감
- 이 채팅에서 비슷한 결과를 냈다는 다른 사람들은 어떻게 설명할 수 있을까? 모두가 같은 실수를 하고 있다는 건가?
Claude 시크릿 창에서 검색을 끄고 https://simonwillison.net/2026/Apr/30/zig-anti-ai/의 본문만, Markdown 링크는 빼고 붙여 넣은 뒤 “저자를 맞혀봐”라고 했더니 이렇게 답함
“Simon Willison. 단서가 꽤 뚜렷하다: ‘(via Lobsters)’식 출처 표기, 본문 중 ‘(Update:...)’ 괄호 수정, 많은 링크와 인용문, LLM과 AI 도구에 대한 초점, 다른 사람의 글에 코멘트를 붙이는 주석형 링크 포스트 구조. simonwillison.net 블로그 글과 정확히 같다”
- 10년도 더 전에 동료와 주고받은 대화문으로 같은 실험을 해봄. 출판해볼까 했지만 흐지부지되어 내 하드디스크에 잠들어 있던 글임
  두 사람의 고유한 목소리가 담겨 있었고, 둘 다 이름으로 공개한 글이 있어 LLM 학습에 들어갔을 가능성이 있으며, 문맥상 단서도 일부 있었음
  Opus 4.7을 시크릿 모드와 웹 검색 없이 돌리자 포기함. “두 저자를 자신 있게 식별할 수 없다. 이 특정 대화를 알아보지 못하며, 잘못 귀속할 위험을 감수하기보다 그렇게 말하겠다. 텍스트 자체의 단서는 제공할 수 있다: 둘은 같은 대학 동료이고, 같은 건물에 사무실이 있고...”라고 답함
  새 시크릿 대화에서 같은 프롬프트를 주되 웹 검색을 허용했더니, 추론 흔적상 26번 검색한 뒤 내 이름을 정확히 찾아냄. 내용과 문체를 모두 단서로 쓴 듯함. 동료가 영국인이라는 점은 맞혔지만 이름은 찾지 못함
- 결론을 일부러 남기지 않은 걸 보니 고민 중인 듯한데, 그렇다면 이 사안에 대한 생각을 읽어보고 싶음
내가 가장 많이 읽힌 블로그 글을 넣고 나를 식별해보라고 했더니, Kelsey Piper가 쓴 글이라고 자신 있게 단정함. Opus의 “머릿속”에서는 몇몇 작가가 과도하게 큰 비중을 차지하는 듯함
- 맞음. 문체 귀속은 대형 범용 모델이 대체로 잘 못하는 작업이고, 학습했을 가능성이 큰 자료에서도 마찬가지임. 분류기이긴 하지만 이 능력은 제한적이고, 내부에서 너무 많은 일이 벌어지며 마법은 아님. 일화가 아니라 제대로 된 실험이 필요함
- 또는 학습셋에 최소 표본 수가 필요할 수도 있음. 작은 비공개 대화 몇 개를 넣었더니 거부했고, 더 많은 분량을 넣자 John Carmack이라고 추측함. 기분은 좋지만 틀림
와, 나도 맞혔음. 나는 Kelsey Piper보다 훨씬 덜 유명한데, 아직 출판하지 않은 책 일부를 보여줬더니 바로 내 이름을 추측함
“문체와 내용으로 볼 때 이 글은 refactoringenglish.com, 이전에는 mtlynch.io에 글을 쓰던 Michael Lynch의 글일 가능성이 높다”고 했고, 글쓰기 조언에 적용한 “clean room” 비유, 결함 있는 변명을 제시한 뒤 시한폭탄 같은 터무니없는 상황과 병렬시키는 구조, AI 도구를 쓰되 AI식 톤이 문체를 오염시키지 않게 하는 주제, 대화체지만 정확한 톤 등을 단서로 들었음
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- 재현해본 뒤 내 글로도 시도했더니, 이건 Lynch 글만큼 선명한 비유 중심 구조가 아니라 더 대화체이고 약간 두서없으며 자기모순을 의식하는 목소리라고 답함
  후보로 Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham 등을 들었지만 확신은 낮다고 했고, 최선의 추측은 합리주의/기술 블로거 AI 논평권의 누군가, 아마 Gergely Orosz, Nat Eliason, Every의 Dan Shipper일 수 있다고 함
  다들 스타일이 꽤 다른 사람들이라, Opus는 주제에 크게 의존하고 다작 작가 쪽으로 추측이 쏠리는 것 같음
- 진지하게 궁금한데, 모델이 당신처럼 쓸 수 있다는 걸 알면 그 새 책 집필에 도움을 받도록 쓰고 싶어지나?
사람의 글에는 식별 가능한 정보가 많이 들어 있고, 10년 전에도 단순한 통계 모델로 이 정도는 가능했다는 걸 더 많은 사람이 알았어야 함
예전에 HN 사용자 유사도 분석을 하던 Show HN들이 있었고, 기억상 가장 그럴듯한 단어쌍 정도만 쓰는 속을 수 있을 만큼 단순한 모델이었는데도 매우 효과적이었음. 내려가긴 했지만 이미 판도라의 상자는 열린 상태였음
그러니 “익명” 계정도 수십 년 전부터 실제 신원과 연결될 수 있었고, 최선은 정말 불리한 글을 올리지 않는 것임. 다른 선택지는 글을 쓴 뒤 LLM으로 다시 쓰게 하는 것인데, 그게 얼마나 안전한지는 모르겠음
- Markov chain 시절에도 Shakespeare 스타일의 헛소리를 만들 수 있었으니, 그 역방향도 가능하다는 게 놀라울 일은 아님
  다만 LLM은 한 번만 낸 오타에도 반응해서 “이건 이탈리아인이 흔히 하는 실수”라고 주장하며 그런 단서를 활용함. 사전 지식이 훨씬 좋아서 더 근거 있는 결정을 내릴 수 있음
- MUD를 하며 자란 입장에서, 사람들은 완전히 다른 그래픽 게임에서도 문장 패턴만으로 누군지 알아보곤 했음
- 자세한 내용이 궁금하면 설명이 붙은 재구현이 있음: https://antirez.com/news/150
몇 년 전 어느 정도 알려진 물리학자와 이 얘기를 했음. 그는 초기 테스터로 지시 튜닝 전 GPT-4 원시 버전에 접근할 수 있었음
텍스트 앞부분 조각을 넣으면 모델이 그의 목소리로 이어 쓰고, 마지막에 그의 이름으로 서명까지 했다고 함. 이 현상은 꽤 오래전부터 가능했고, 지시형 후처리 학습 때문에 조금 약해졌을 수 있으며, 사전학습 규모에 따라 정도가 달라질 듯함
- 그 텍스트가 이미 학습셋에 들어간 공개 글이었는지, 아니면 AI 입장에서는 즉석에서 쓴 것과 다름없는 비공개 글이었는지가 중요함
  AI가 아이디어, 어휘, 톤 같은 요소로 글쓴이를 “지문 채취”할 수 있다는 건 의심하지 않지만, 능력 면에서는 서로 다른 얘기임
더 단순하고 덜 흥미로운 답이 있을지도 모름. 평균적인 비작가에게 적용될 탈익명화 능력이 아니라, 그냥 목소리와 스타일을 잡아낸 것 아닐까?
이 사람은 숙련된 작가이고, 그런 역량의 일부는 고유한 목소리와 스타일을 만드는 것임. AI는 그걸 식별할 수 있고, 비교적 틈새 작가도 식별한다는 점은 인상적이지만 Facebook 글이나 문자 메시지 같은 임의의 텍스트로 사람을 탈익명화하는 더 넓은 능력과는 별개임
전문 음악가라면 몇 초만 들어도 잘 알려진 연주자나 녹음을 맞히기 어렵지 않음. Bach를 치든 Rachmaninov를 치든 스타일이 그냥 “그 사람”임. 하지만 익명의 고등학생 연주자를, 심지어 자기 학생이라도, 그렇게 맞히기는 어려움. 중앙값은 금세 균질하고 덜 독특한 스타일로 회귀함
- 맞지만, 그녀가 친구들의 산문으로 한 실험에서도 모델이 그들이 “그녀의 주변인”이라는 걸 잡아냈음
  그러니 단지 어떤 사람이 독특한 목소리를 개발했고 그걸 “끄지” 못한다는 얘기만은 아님
- 수십 년 전 펑크, 하드코어, 헤비메탈 관련 온라인 포럼에 있었는데, 인종차별이나 나치 이념을 떠드는 질 나쁜 사람들이 반복적으로 들어오는 문제가 있었음. 차단되면 새 계정으로 돌아와 “조용히” 지내며 더 간접적인 수사로 말하려 했지만, 포럼 관리자는 글쓰기 스타일만 보고 사람을 알아보는 감각이 믿기 힘들 정도였음
  웹은 사람들이 생각하는 것만큼 익명이었던 적이 없고, 이 글쓴이는 익명성과 신원 은폐가 실제로 무엇을 뜻하는지 혼동하는 듯함. 독특한 문체를 가진 출판 작가라는 건 사실상 도끼에 지문을 남기는 것과 비슷함
- 대체로 식별 가능한 대상은 공개적으로 많은 글을 쓴 사람들로 보임. 내가 비공개 Discord 서버에 쓴 댓글들을 잔뜩 넣어봤더니 전부 식별할 수 없다고 했고, 나를 잘 아는 사람이라면 바로 알아볼 직장 위치, 사는 도시, 아내의 고용주, 내 고용주 같은 단서가 있어도 마찬가지였음
  식별되는 사람들은 블로거, 기자, 출판 작가 쪽인 듯함
“세상에서 가장 정직한 사람이 쓴 여섯 줄만 보여주면, 그 안에서 그를 교수형에 처할 만큼의 근거를 찾아내겠다”
Cardinal Richelieu, 혹은 이제는 AI
Opus 4.7로 두 번째 결과를 여러 번 재현해봤지만 안 됐음. 프롬프트를 여러 가지로 바꿔도 매번 합리주의 커뮤니티 쪽 사상가들을 추측함

답변달기

Opus 4.7은 진짜 Kelsey를 안다

Opus 4.7의 작성자 식별 실험

장르와 시점이 달라도 이어진 식별

교육 관련 초안

영화 리뷰

판타지 소설

15년 전 대학 지원 에세이

모델의 설명은 신뢰하기 어려움

AI와 대화할 때 사라지는 익명성

아직 모든 사람을 한 문단으로 식별할 수는 없음

문체는 예상보다 더 식별 가능함

피할 방법과 남는 결론

함께 보면 좋은 글 β

Hacker News 의견들