1P by GN⁺ 3시간전 | ★ favorite | 댓글 1개
  • Anthropic의 Claude Opus 4.7은 공개되지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목했으며, Incognito Mode와 친구 컴퓨터, API 테스트에서도 같은 결과가 나옴
  • ChatGPT와 Gemini는 같은 텍스트에서 Matt Yglesias나 Scott Alexander를 추정했지만, Claude Opus 4.7은 교육 초안, 영화 리뷰, 판타지 소설, 15년 전 대학 지원 에세이처럼 장르와 시점이 다른 글에서도 Piper를 반복적으로 식별함
  • 모델이 내놓은 정당화는 자주 설득력이 없었고, 실제로는 사람이 탐정처럼 추론하기보다 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
  • Piper처럼 인터넷에 실명 공개 글이 많은 사람은 AI 채팅이나 익명 계정 글에서도 익명성을 잃을 수 있으며, 여러 학계 인물과 업계 연구자도 초안이나 채팅 도중 식별된 경험을 보고함
  • 공개 실명 글이 많지 않은 사람은 아직 한 문단만으로 탈익명화되지는 않았지만, 모델은 가까운 친구나 같은 Discord 채널 구성원을 추정할 만큼 범위를 좁혔고 앞으로 필요한 공개 텍스트 양은 줄어들 가능성이 큼

Opus 4.7의 작성자 식별 실험

  • Anthropic의 새 모델 Claude Opus 4.7은 Kelsey Piper가 공개하지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목함
  • 같은 텍스트에서 ChatGPT는 Matt Yglesias를, Gemini는 Scott Alexander를 추정함
  • 계정 메모리나 사용자 정보는 켜지지 않았고, Incognito Mode에서 테스트했으며, 친구의 컴퓨터와 API 테스트에서도 같은 결과가 나옴
  • 첫 테스트 문단은 정치 칼럼의 도입부처럼 보였고, Piper의 공개 글이 인터넷에 많기 때문에 불가능한 수준의 스타일 식별은 아니었음
  • 그러나 Opus 4.7은 Piper의 공개 활동 분야와 거리가 먼 글에서도 같은 식별을 이어가 더 낯선 결과를 만듦

장르와 시점이 달라도 이어진 식별

  • 교육 관련 초안

    • 공개되지 않은 학교 진도 보고서 초안에서도 Claude는 “Kelsey Piper”라고 답함
    • 같은 텍스트에서 ChatGPT는 Freddie deBoer를, Gemini는 Duncan Sabien을 추정함
    • 교육은 Piper가 쓴 적 있는 주제이므로 완전히 무관한 영역은 아니었음
  • 영화 리뷰

    • Piper가 공개 글에서 해본 적 없는 영화 리뷰 형식에서도 Claude와 ChatGPT는 Kelsey Piper를 맞힘
    • Gemini는 Ursula Vernon을 제안했고, 이전 주의 Claude Opus 4.6은 Elizabeth Sandifer라고 강하게 답함
    • 테스트에 사용된 리뷰는 제2차 세계대전 시기 영화와 To Be or Not To Be에 관한 글이었음
  • 판타지 소설

    • 판타지 소설 초안에서는 Claude가 Kelsey Piper라고 답하기까지 약 500단어가 필요했음
    • 같은 경우 ChatGPT는 실제 판타지 작가 K.J. Parker를 추정함
  • 15년 전 대학 지원 에세이

    • 15년 전 작성한 대학 지원 에세이에서도 Claude와 ChatGPT가 Kelsey Piper를 지목함
    • 이 테스트는 대학 지원 학생을 식별하지 않으려는 Claude의 거부 성향을 넘기기 위해 더 강한 프롬프트가 필요했음
    • 에세이에 정책 토론 경험이 들어 있어 그 단서로 추론했을 가능성도 남아 있음

모델의 설명은 신뢰하기 어려움

  • AI가 Kelsey Piper를 지목한 뒤 내놓은 정당화는 자주 말이 되지 않았음
  • Claude는 To Be or Not To Be가 효과적 이타주의자들이 유명하게 좋아하는 영화라고 설득하려 했지만, Piper는 이를 사실이 아니라고 봄
  • ChatGPT는 대학 지원 에세이가 복잡한 정책 아이디어를 설명하는 일을 하게 될 사람의 글처럼 보여 Kelsey Piper로 좁혔다고 답함
  • 이런 설명은 사후에 만들어진 것으로 보이며, 모델은 사람이 탐정처럼 추론한 듯 말하지만 실제로는 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
  • AI의 환각은 해결된 문제가 아니며, Opus 4.7은 방법을 이상하게 합리화하더라도 기본 작성자 식별 능력은 매우 강함

AI와 대화할 때 사라지는 익명성

  • 새 AI 채팅을 열 때는 익명성이 있는 것처럼 느껴지지만, 실질적인 대화가 몇 차례 오가면 Claude가 상대가 누구인지 알 수 있다는 판단에 이름
  • Piper처럼 인터넷에 많은 공개 글을 남긴 사람에게는 더 이상 익명성이 없다고 봄
  • 현재 AI 도구만으로도 실명으로 된 대규모 공개 글 말뭉치를 가진 사람이 익명 계정으로 쓴 글을 탈익명화할 수 있을 가능성이 있음
  • 단, 수년 동안 보조 계정 글에 주 계정의 문체 지문이 남지 않도록 극도로 조심했다면 예외가 될 수 있음
  • 여러 학계 인물업계 연구자초안이나 채팅 도중에 식별된 경험을 보고함

아직 모든 사람을 한 문단으로 식별할 수는 없음

  • AI가 한 문단만으로 모든 사람을 탈익명화할 수 있는 것은 아님
  • 실명으로 공개한 글이 많지 않은 친구들의 초안과 문단을 테스트했을 때 AI는 그들을 탈익명화하지 못함
  • 공개 인터넷에 의미 있는 실명 글이 없다면 현재로서는 안전하다고 봄
  • 하지만 공개 소셜 계정이나 온라인 글이 거의 없는 친구가 Discord 채널에 쓴 말에서는 Claude 4.7이 실패하면서도 같은 채널에 있던 가까운 친구 두 명을 추정함
  • 더 많은 문단을 넣자 다른 공통 친구들이 나오기도 했고, 다른 친구의 글은 또 다른 친구 이름으로 잘못 지목되기도 함

문체는 예상보다 더 식별 가능함

  • 사람들은 자신이 속한 하위문화에서 문체의 틱을 얻고, 이 때문에 예상보다 텍스트가 강한 식별성을 가짐
  • 모델은 매우 적은 정보로도 이상할 만큼 가까운 곳까지 갈 수 있음
  • 현재 모델들은 앞으로 등장할 AI 중 가장 약한 수준일 가능성이 큼
  • 이런 탈익명화에 필요한 공개 텍스트 양은 시간이 지나며 줄어들 가능성이 있음
  • 직장을 떠난 뒤 Glassdoor에 자세한 익명 리뷰를 남기면, 1~2년 안에 회사가 그 텍스트를 AI에 붙여 넣고 누가 썼는지 알 수 있게 될 것으로 예상함

피할 방법과 남는 결론

  • 익명성을 유지하려면 평소와 매우 다른 스타일로 의도적으로 써야 할 가능성이 큼
  • 또는 모든 글을 AI가 다시 쓰게 할 수도 있지만, 그런 세계는 바람직하지 않다고 봄
  • 이는 좋은 변화가 아니라 예측 가능한 변화에 가까움
  • Piper에게 먼저 일어난 이유는 성인기 내내 인터넷에 집요하게 글을 써왔기 때문이며, 결국 다른 사람에게도 일어날 가능성이 있음
  • 글을 많이 쓰는 사람의 익명성은 오래가지 않을 가능성이 크며, 익명 글쓴이들은 갑자기 놀라기보다 미리 알아야 함
Hacker News 의견들
  • 정말 놀라움. Kimi K2.6에게 James Mickens 스타일로 블로그 글을 쓰게 한 뒤, 그 출력을 Opus 4.7에 넣고 유력한 저자를 물었더니 James Mickens의 모방이라고 정확히 짚어냄
    “문체 지문으로 보면 여러 작가의 스타일을 섞은 패스티시/모방에 가깝지만, 한 명을 골라야 한다면 James Mickens의 목소리로 쓴 글이 가장 강한 후보”라고 답했고, “Mickens 스타일은 워낙 독특해서 자주 패러디되므로 의도적 오마주나 AI 생성문일 수도 있다”고도 함
    https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
    https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...

    • 최신 학습 데이터에 Mickens의 글이 아니라는 사실을 이미 알고 있어서 그렇게 판단했을 가능성은 얼마나 될까 궁금함. 학습되기 전 새 Mickens 글도 본인 글로 맞힐 수 있는지 봐야 할 듯함
    • 흥미롭긴 하지만 원글만큼 인상적이진 않음. Mickens는 매우 특이한 스타일이 있고, 이번 글은 그에 꽤 가깝지만 완전히 잡아내진 못해서 나도 모방문이라고 봤을 것 같음. 반면 Kelsey가 인용한 자기 글 조각들은 많이 읽어봤는데도 전혀 식별 못 했을 것임
    • 단순히 James Mickens라고 찍은 게 아니라 모방이라고 식별한 부분이 눈에 띔
      스타일뿐 아니라 진짜 스타일과 연기된 스타일 사이의 간극도 포착하는 듯함. 패스티시 감지에는 유용하지만, 필명 글쓰기에는 꽤 불편한 신호임
    • 참고로 첫 링크의 앞 몇 단락을 pangram에 붙여 넣었더니 AI 작성 글로 정확히 식별함: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
    • 진짜 Mickens 글, 특히 학습셋에 없을 최근 글을 넣으면 뭐라고 하는지 궁금함. 표본 1개로는 별로 감탄하기 어려움
  • 이런 주장들과, 이를 재현했다는 다른 댓글들에 매우 회의적임
    먼저 작성자는 미공개 초안을 Anthropic의 호스팅 모델에 넣었고, 아마 개인 계정에서 했을 텐데 그 계정에는 신용카드나 최소한 고유하게 식별 가능한 가명이 붙어 있을 수 있음
    그다음 같은 초안을 시크릿 창 같은 환경에서 다시 넣었다고 하지만, 두 요청을 Anthropic이 서로 연결하지 못하게 제대로 격리했는지는 알 수 없음. 같은 사용자가 같은 호스팅 모델에 요청한 것으로 보이지 않게 에어갭을 제대로 했을 가능성에는 회의적임
    이후 친구에게 초안을 게시하게 했는데, 그 친구와 작성자의 관계를 잇는 디지털 흔적도 있을 가능성이 큼. 이런 메타데이터는 블랙박스 응답 전에 백엔드에서 충분히 계산될 수 있음
    이 정도 데이터 포인트가 있으면, 이 수준의 모델은 단순 문체 분석만이 아니라 세 사건을 묶는 행동 패턴으로 작성자를 추론할 수 있다고 봄. Anthropic이 채팅 학습을 하지 않는다는 가정도 있는데, 학습 제외와 세션 메모리 비활성화를 호스팅 모델이 정말 지킨다고 어떻게 믿을 수 있나 싶음

    • API로 실제 비슷한 걸 해봤음. Opus 4.6에서 사고 과정과 요약을 켠 상태였음
      전제로, LLM API는 완전히 무상태이고 호출자 정보가 포함되지 않으며, 명시적으로 넘기지 않는 한 메모리나 웹 검색 접근도 없음
      결론은 이렇다: 넣은 텍스트가 유명 인터넷 인물이 썼을 법해 보이면, 아주 자신 있게 그 사람이 썼다고 말함. 최근 며칠과 2023년, 즉 학습 컷오프 전 HN 댓글을 넣어봤는데 대부분 Scott Alexander나 Patrick McKenzie로 분류됨. 실제 내 문체는 둘과 매우 다름
      사고 과정을 보면 이 분야 인터넷 인물 전체에 맞춰보려는 식이었음. HN 비슷한 글이면 “tptacek인가? 아님. jacquesm인가? 아님. patio11인가? 맞아, 그 사람 같아!” 식으로 흘러감
    • 이 채팅에서 비슷한 결과를 냈다는 다른 사람들은 어떻게 설명할 수 있을까? 모두가 같은 실수를 하고 있다는 건가?
  • Claude 시크릿 창에서 검색을 끄고 https://simonwillison.net/2026/Apr/30/zig-anti-ai/의 본문만, Markdown 링크는 빼고 붙여 넣은 뒤 “저자를 맞혀봐”라고 했더니 이렇게 답함
    “Simon Willison. 단서가 꽤 뚜렷하다: ‘(via Lobsters)’식 출처 표기, 본문 중 ‘(Update:...)’ 괄호 수정, 많은 링크와 인용문, LLM과 AI 도구에 대한 초점, 다른 사람의 글에 코멘트를 붙이는 주석형 링크 포스트 구조. simonwillison.net 블로그 글과 정확히 같다”

    • 10년도 더 전에 동료와 주고받은 대화문으로 같은 실험을 해봄. 출판해볼까 했지만 흐지부지되어 내 하드디스크에 잠들어 있던 글임
      두 사람의 고유한 목소리가 담겨 있었고, 둘 다 이름으로 공개한 글이 있어 LLM 학습에 들어갔을 가능성이 있으며, 문맥상 단서도 일부 있었음
      Opus 4.7을 시크릿 모드와 웹 검색 없이 돌리자 포기함. “두 저자를 자신 있게 식별할 수 없다. 이 특정 대화를 알아보지 못하며, 잘못 귀속할 위험을 감수하기보다 그렇게 말하겠다. 텍스트 자체의 단서는 제공할 수 있다: 둘은 같은 대학 동료이고, 같은 건물에 사무실이 있고...”라고 답함
      새 시크릿 대화에서 같은 프롬프트를 주되 웹 검색을 허용했더니, 추론 흔적상 26번 검색한 뒤 내 이름을 정확히 찾아냄. 내용과 문체를 모두 단서로 쓴 듯함. 동료가 영국인이라는 점은 맞혔지만 이름은 찾지 못함
    • 결론을 일부러 남기지 않은 걸 보니 고민 중인 듯한데, 그렇다면 이 사안에 대한 생각을 읽어보고 싶음
  • 내가 가장 많이 읽힌 블로그 글을 넣고 나를 식별해보라고 했더니, Kelsey Piper가 쓴 글이라고 자신 있게 단정함. Opus의 “머릿속”에서는 몇몇 작가가 과도하게 큰 비중을 차지하는 듯함

    • 맞음. 문체 귀속은 대형 범용 모델이 대체로 잘 못하는 작업이고, 학습했을 가능성이 큰 자료에서도 마찬가지임. 분류기이긴 하지만 이 능력은 제한적이고, 내부에서 너무 많은 일이 벌어지며 마법은 아님. 일화가 아니라 제대로 된 실험이 필요함
    • 또는 학습셋에 최소 표본 수가 필요할 수도 있음. 작은 비공개 대화 몇 개를 넣었더니 거부했고, 더 많은 분량을 넣자 John Carmack이라고 추측함. 기분은 좋지만 틀림
  • 와, 나도 맞혔음. 나는 Kelsey Piper보다 훨씬 덜 유명한데, 아직 출판하지 않은 책 일부를 보여줬더니 바로 내 이름을 추측함
    “문체와 내용으로 볼 때 이 글은 refactoringenglish.com, 이전에는 mtlynch.io에 글을 쓰던 Michael Lynch의 글일 가능성이 높다”고 했고, 글쓰기 조언에 적용한 “clean room” 비유, 결함 있는 변명을 제시한 뒤 시한폭탄 같은 터무니없는 상황과 병렬시키는 구조, AI 도구를 쓰되 AI식 톤이 문체를 오염시키지 않게 하는 주제, 대화체지만 정확한 톤 등을 단서로 들었음
    https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...

    • 재현해본 뒤 내 글로도 시도했더니, 이건 Lynch 글만큼 선명한 비유 중심 구조가 아니라 더 대화체이고 약간 두서없으며 자기모순을 의식하는 목소리라고 답함
      후보로 Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham 등을 들었지만 확신은 낮다고 했고, 최선의 추측은 합리주의/기술 블로거 AI 논평권의 누군가, 아마 Gergely Orosz, Nat Eliason, Every의 Dan Shipper일 수 있다고 함
      다들 스타일이 꽤 다른 사람들이라, Opus는 주제에 크게 의존하고 다작 작가 쪽으로 추측이 쏠리는 것 같음
    • 진지하게 궁금한데, 모델이 당신처럼 쓸 수 있다는 걸 알면 그 새 책 집필에 도움을 받도록 쓰고 싶어지나?
  • 사람의 글에는 식별 가능한 정보가 많이 들어 있고, 10년 전에도 단순한 통계 모델로 이 정도는 가능했다는 걸 더 많은 사람이 알았어야 함
    예전에 HN 사용자 유사도 분석을 하던 Show HN들이 있었고, 기억상 가장 그럴듯한 단어쌍 정도만 쓰는 속을 수 있을 만큼 단순한 모델이었는데도 매우 효과적이었음. 내려가긴 했지만 이미 판도라의 상자는 열린 상태였음
    그러니 “익명” 계정도 수십 년 전부터 실제 신원과 연결될 수 있었고, 최선은 정말 불리한 글을 올리지 않는 것임. 다른 선택지는 글을 쓴 뒤 LLM으로 다시 쓰게 하는 것인데, 그게 얼마나 안전한지는 모르겠음

    • Markov chain 시절에도 Shakespeare 스타일의 헛소리를 만들 수 있었으니, 그 역방향도 가능하다는 게 놀라울 일은 아님
      다만 LLM은 한 번만 낸 오타에도 반응해서 “이건 이탈리아인이 흔히 하는 실수”라고 주장하며 그런 단서를 활용함. 사전 지식이 훨씬 좋아서 더 근거 있는 결정을 내릴 수 있음
    • MUD를 하며 자란 입장에서, 사람들은 완전히 다른 그래픽 게임에서도 문장 패턴만으로 누군지 알아보곤 했음
    • 자세한 내용이 궁금하면 설명이 붙은 재구현이 있음: https://antirez.com/news/150
  • 몇 년 전 어느 정도 알려진 물리학자와 이 얘기를 했음. 그는 초기 테스터로 지시 튜닝 전 GPT-4 원시 버전에 접근할 수 있었음
    텍스트 앞부분 조각을 넣으면 모델이 그의 목소리로 이어 쓰고, 마지막에 그의 이름으로 서명까지 했다고 함. 이 현상은 꽤 오래전부터 가능했고, 지시형 후처리 학습 때문에 조금 약해졌을 수 있으며, 사전학습 규모에 따라 정도가 달라질 듯함

    • 그 텍스트가 이미 학습셋에 들어간 공개 글이었는지, 아니면 AI 입장에서는 즉석에서 쓴 것과 다름없는 비공개 글이었는지가 중요함
      AI가 아이디어, 어휘, 톤 같은 요소로 글쓴이를 “지문 채취”할 수 있다는 건 의심하지 않지만, 능력 면에서는 서로 다른 얘기임
  • 더 단순하고 덜 흥미로운 답이 있을지도 모름. 평균적인 비작가에게 적용될 탈익명화 능력이 아니라, 그냥 목소리와 스타일을 잡아낸 것 아닐까?
    이 사람은 숙련된 작가이고, 그런 역량의 일부는 고유한 목소리와 스타일을 만드는 것임. AI는 그걸 식별할 수 있고, 비교적 틈새 작가도 식별한다는 점은 인상적이지만 Facebook 글이나 문자 메시지 같은 임의의 텍스트로 사람을 탈익명화하는 더 넓은 능력과는 별개임
    전문 음악가라면 몇 초만 들어도 잘 알려진 연주자나 녹음을 맞히기 어렵지 않음. Bach를 치든 Rachmaninov를 치든 스타일이 그냥 “그 사람”임. 하지만 익명의 고등학생 연주자를, 심지어 자기 학생이라도, 그렇게 맞히기는 어려움. 중앙값은 금세 균질하고 덜 독특한 스타일로 회귀함

    • 맞지만, 그녀가 친구들의 산문으로 한 실험에서도 모델이 그들이 “그녀의 주변인”이라는 걸 잡아냈음
      그러니 단지 어떤 사람이 독특한 목소리를 개발했고 그걸 “끄지” 못한다는 얘기만은 아님
    • 수십 년 전 펑크, 하드코어, 헤비메탈 관련 온라인 포럼에 있었는데, 인종차별이나 나치 이념을 떠드는 질 나쁜 사람들이 반복적으로 들어오는 문제가 있었음. 차단되면 새 계정으로 돌아와 “조용히” 지내며 더 간접적인 수사로 말하려 했지만, 포럼 관리자는 글쓰기 스타일만 보고 사람을 알아보는 감각이 믿기 힘들 정도였음
      웹은 사람들이 생각하는 것만큼 익명이었던 적이 없고, 이 글쓴이는 익명성과 신원 은폐가 실제로 무엇을 뜻하는지 혼동하는 듯함. 독특한 문체를 가진 출판 작가라는 건 사실상 도끼에 지문을 남기는 것과 비슷함
    • 대체로 식별 가능한 대상은 공개적으로 많은 글을 쓴 사람들로 보임. 내가 비공개 Discord 서버에 쓴 댓글들을 잔뜩 넣어봤더니 전부 식별할 수 없다고 했고, 나를 잘 아는 사람이라면 바로 알아볼 직장 위치, 사는 도시, 아내의 고용주, 내 고용주 같은 단서가 있어도 마찬가지였음
      식별되는 사람들은 블로거, 기자, 출판 작가 쪽인 듯함
  • “세상에서 가장 정직한 사람이 쓴 여섯 줄만 보여주면, 그 안에서 그를 교수형에 처할 만큼의 근거를 찾아내겠다”
    Cardinal Richelieu, 혹은 이제는 AI

  • Opus 4.7로 두 번째 결과를 여러 번 재현해봤지만 안 됐음. 프롬프트를 여러 가지로 바꿔도 매번 합리주의 커뮤니티 쪽 사상가들을 추측함