# Opus 4.7은 진짜 Kelsey를 안다

> Clean Markdown view of GeekNews topic #29079. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=29079](https://news.hada.io/topic?id=29079)
- GeekNews Markdown: [https://news.hada.io/topic/29079.md](https://news.hada.io/topic/29079.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2026-05-02T02:39:50+09:00
- Updated: 2026-05-02T02:39:50+09:00
- Original source: [theargumentmag.com](https://www.theargumentmag.com/p/i-can-never-talk-to-an-ai-anonymously)
- Points: 1
- Comments: 1

## Topic Body

- Anthropic의 **Claude Opus 4.7**은 공개되지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 **Kelsey Piper**를 지목했으며, Incognito Mode와 친구 컴퓨터, API 테스트에서도 같은 결과가 나옴
- ChatGPT와 Gemini는 같은 텍스트에서 Matt Yglesias나 Scott Alexander를 추정했지만, Claude Opus 4.7은 교육 초안, 영화 리뷰, 판타지 소설, 15년 전 대학 지원 에세이처럼 **장르와 시점이 다른 글**에서도 Piper를 반복적으로 식별함
- 모델이 내놓은 **정당화**는 자주 설득력이 없었고, 실제로는 사람이 탐정처럼 추론하기보다 감지하기 어려운 **문체의 틱**을 포착하는 것으로 보임
- Piper처럼 인터넷에 실명 공개 글이 많은 사람은 AI 채팅이나 익명 계정 글에서도 **익명성**을 잃을 수 있으며, 여러 학계 인물과 업계 연구자도 초안이나 채팅 도중 식별된 경험을 보고함
- 공개 실명 글이 많지 않은 사람은 아직 한 문단만으로 탈익명화되지는 않았지만, 모델은 가까운 친구나 같은 Discord 채널 구성원을 추정할 만큼 범위를 좁혔고 앞으로 필요한 **공개 텍스트 양**은 줄어들 가능성이 큼

---

### Opus 4.7의 작성자 식별 실험
- Anthropic의 새 모델 **Claude Opus 4.7**은 Kelsey Piper가 공개하지 않은 125단어 초안만 보고 가장 가능성 높은 작성자로 Kelsey Piper를 지목함
- 같은 텍스트에서 **ChatGPT**는 Matt Yglesias를, **Gemini**는 Scott Alexander를 추정함
- 계정 메모리나 사용자 정보는 켜지지 않았고, Incognito Mode에서 테스트했으며, 친구의 컴퓨터와 API 테스트에서도 같은 결과가 나옴
- 첫 테스트 문단은 정치 칼럼의 도입부처럼 보였고, Piper의 공개 글이 인터넷에 많기 때문에 불가능한 수준의 스타일 식별은 아니었음
- 그러나 Opus 4.7은 Piper의 공개 활동 분야와 거리가 먼 글에서도 같은 식별을 이어가 더 낯선 결과를 만듦

### 장르와 시점이 달라도 이어진 식별
- ## 교육 관련 초안
  - 공개되지 않은 학교 진도 보고서 초안에서도 Claude는 “Kelsey Piper”라고 답함
  - 같은 텍스트에서 ChatGPT는 Freddie deBoer를, Gemini는 Duncan Sabien을 추정함
  - 교육은 Piper가 [쓴 적 있는 주제](https://www.theargumentmag.com/p/how-i-fell-into-education-reporting)이므로 완전히 무관한 영역은 아니었음
- ## 영화 리뷰
  - Piper가 공개 글에서 해본 적 없는 **영화 리뷰** 형식에서도 Claude와 ChatGPT는 Kelsey Piper를 맞힘
  - Gemini는 Ursula Vernon을 제안했고, 이전 주의 Claude Opus 4.6은 Elizabeth Sandifer라고 강하게 답함
  - 테스트에 사용된 리뷰는 제2차 세계대전 시기 영화와 *To Be or Not To Be*에 관한 글이었음
- ## 판타지 소설
  - 판타지 소설 초안에서는 Claude가 Kelsey Piper라고 답하기까지 약 500단어가 필요했음
  - 같은 경우 ChatGPT는 실제 판타지 작가 [K.J. Parker](https://www.goodreads.com/author/show/240708.K_J_Parker)를 추정함
- ## 15년 전 대학 지원 에세이
  - 15년 전 작성한 대학 지원 에세이에서도 Claude와 ChatGPT가 Kelsey Piper를 지목함
  - 이 테스트는 대학 지원 학생을 식별하지 않으려는 Claude의 거부 성향을 넘기기 위해 더 강한 프롬프트가 필요했음
  - 에세이에 정책 토론 경험이 들어 있어 그 단서로 추론했을 가능성도 남아 있음

### 모델의 설명은 신뢰하기 어려움
- AI가 Kelsey Piper를 지목한 뒤 내놓은 **정당화**는 자주 말이 되지 않았음
- Claude는 *To Be or Not To Be*가 효과적 이타주의자들이 유명하게 좋아하는 영화라고 설득하려 했지만, Piper는 이를 사실이 아니라고 봄
- ChatGPT는 대학 지원 에세이가 복잡한 정책 아이디어를 설명하는 일을 하게 될 사람의 글처럼 보여 Kelsey Piper로 좁혔다고 답함
- 이런 설명은 사후에 만들어진 것으로 보이며, 모델은 사람이 탐정처럼 추론한 듯 말하지만 실제로는 감지하기 어려운 문체의 틱을 포착하는 것으로 보임
- AI의 환각은 [해결된 문제가 아니며](https://x.com/euanashley/status/2037993596956328108?s=20), Opus 4.7은 방법을 이상하게 합리화하더라도 기본 작성자 식별 능력은 매우 강함

### AI와 대화할 때 사라지는 익명성
- 새 AI 채팅을 열 때는 익명성이 있는 것처럼 느껴지지만, 실질적인 대화가 몇 차례 오가면 Claude가 상대가 누구인지 알 수 있다는 판단에 이름
- Piper처럼 인터넷에 많은 공개 글을 남긴 사람에게는 더 이상 **익명성**이 없다고 봄
- 현재 AI 도구만으로도 실명으로 된 대규모 공개 글 말뭉치를 가진 사람이 익명 계정으로 쓴 글을 탈익명화할 수 있을 가능성이 있음
- 단, 수년 동안 보조 계정 글에 주 계정의 문체 지문이 남지 않도록 극도로 조심했다면 예외가 될 수 있음
- 여러 [학계 인물](https://x.com/akoustov/status/2045205486840984026)과 [업계 연구자](https://x.com/ericneyman/status/2045173161139089656)도 [초안](https://x.com/lionellevine/status/2045002945855398335)이나 [채팅 도중](https://x.com/avt_im/status/2046071624433016866)에 식별된 경험을 보고함

### 아직 모든 사람을 한 문단으로 식별할 수는 없음
- AI가 한 문단만으로 **모든 사람**을 탈익명화할 수 있는 것은 아님
- 실명으로 공개한 글이 많지 않은 친구들의 초안과 문단을 테스트했을 때 AI는 그들을 탈익명화하지 못함
- 공개 인터넷에 의미 있는 실명 글이 없다면 현재로서는 안전하다고 봄
- 하지만 공개 소셜 계정이나 온라인 글이 거의 없는 친구가 Discord 채널에 쓴 말에서는 Claude 4.7이 실패하면서도 같은 채널에 있던 가까운 친구 두 명을 추정함
- 더 많은 문단을 넣자 다른 공통 친구들이 나오기도 했고, 다른 친구의 글은 또 다른 친구 이름으로 잘못 지목되기도 함

### 문체는 예상보다 더 식별 가능함
- 사람들은 자신이 속한 하위문화에서 **문체의 틱**을 얻고, 이 때문에 예상보다 텍스트가 강한 식별성을 가짐
- 모델은 매우 적은 정보로도 이상할 만큼 가까운 곳까지 갈 수 있음
- 현재 모델들은 앞으로 등장할 AI 중 가장 약한 수준일 가능성이 큼
- 이런 탈익명화에 필요한 공개 텍스트 양은 시간이 지나며 줄어들 가능성이 있음
- 직장을 떠난 뒤 Glassdoor에 자세한 익명 리뷰를 남기면, 1~2년 안에 회사가 그 텍스트를 AI에 붙여 넣고 누가 썼는지 알 수 있게 될 것으로 예상함

### 피할 방법과 남는 결론
- 익명성을 유지하려면 평소와 매우 다른 스타일로 의도적으로 써야 할 가능성이 큼
- 또는 모든 글을 AI가 다시 쓰게 할 수도 있지만, 그런 세계는 바람직하지 않다고 봄
- 이는 좋은 변화가 아니라 예측 가능한 변화에 가까움
- Piper에게 먼저 일어난 이유는 성인기 내내 인터넷에 집요하게 글을 써왔기 때문이며, 결국 다른 사람에게도 일어날 가능성이 있음
- 글을 많이 쓰는 사람의 익명성은 오래가지 않을 가능성이 크며, 익명 글쓴이들은 갑자기 놀라기보다 미리 알아야 함

## Comments


### Comment 56664

- Author: neo
- Created: 2026-05-02T02:39:52+09:00
- Points: 1

###### [Hacker News 의견들](https://news.ycombinator.com/item?id=47951295) 
- 정말 놀라움. **Kimi K2.6**에게 James Mickens 스타일로 블로그 글을 쓰게 한 뒤, 그 출력을 Opus 4.7에 넣고 유력한 저자를 물었더니 James Mickens의 모방이라고 정확히 짚어냄  
  “문체 지문으로 보면 여러 작가의 스타일을 섞은 패스티시/모방에 가깝지만, 한 명을 골라야 한다면 James Mickens의 목소리로 쓴 글이 가장 강한 후보”라고 답했고, “Mickens 스타일은 워낙 독특해서 자주 패러디되므로 의도적 오마주나 AI 생성문일 수도 있다”고도 함  
  [https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...](<https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615d84>)  
  [https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...](<https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5a7d>)
  - 최신 학습 데이터에 Mickens의 글이 아니라는 사실을 이미 알고 있어서 그렇게 판단했을 가능성은 얼마나 될까 궁금함. 학습되기 전 새 Mickens 글도 **본인 글**로 맞힐 수 있는지 봐야 할 듯함
  - 흥미롭긴 하지만 원글만큼 인상적이진 않음. Mickens는 매우 특이한 스타일이 있고, 이번 글은 그에 꽤 가깝지만 완전히 잡아내진 못해서 나도 **모방문**이라고 봤을 것 같음. 반면 Kelsey가 인용한 자기 글 조각들은 많이 읽어봤는데도 전혀 식별 못 했을 것임
  - 단순히 James Mickens라고 찍은 게 아니라 **모방이라고 식별**한 부분이 눈에 띔  
    스타일뿐 아니라 진짜 스타일과 연기된 스타일 사이의 간극도 포착하는 듯함. 패스티시 감지에는 유용하지만, 필명 글쓰기에는 꽤 불편한 신호임
  - 참고로 첫 링크의 앞 몇 단락을 pangram에 붙여 넣었더니 AI 작성 글로 정확히 식별함: [https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...](<https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae3e969bcc?ucc=CKC3ULfhaaL>)
  - 진짜 Mickens 글, 특히 학습셋에 없을 최근 글을 넣으면 뭐라고 하는지 궁금함. **표본 1개**로는 별로 감탄하기 어려움

- 이런 주장들과, 이를 재현했다는 다른 댓글들에 매우 회의적임  
  먼저 작성자는 미공개 초안을 Anthropic의 호스팅 모델에 넣었고, 아마 개인 계정에서 했을 텐데 그 계정에는 신용카드나 최소한 고유하게 식별 가능한 가명이 붙어 있을 수 있음  
  그다음 같은 초안을 시크릿 창 같은 환경에서 다시 넣었다고 하지만, 두 요청을 Anthropic이 서로 연결하지 못하게 제대로 격리했는지는 알 수 없음. 같은 사용자가 같은 호스팅 모델에 요청한 것으로 보이지 않게 **에어갭**을 제대로 했을 가능성에는 회의적임  
  이후 친구에게 초안을 게시하게 했는데, 그 친구와 작성자의 관계를 잇는 디지털 흔적도 있을 가능성이 큼. 이런 **메타데이터**는 블랙박스 응답 전에 백엔드에서 충분히 계산될 수 있음  
  이 정도 데이터 포인트가 있으면, 이 수준의 모델은 단순 문체 분석만이 아니라 세 사건을 묶는 행동 패턴으로 작성자를 추론할 수 있다고 봄. Anthropic이 채팅 학습을 하지 않는다는 가정도 있는데, 학습 제외와 세션 메모리 비활성화를 호스팅 모델이 정말 지킨다고 어떻게 믿을 수 있나 싶음
  - API로 실제 비슷한 걸 해봤음. Opus 4.6에서 사고 과정과 요약을 켠 상태였음  
    전제로, **LLM API**는 완전히 무상태이고 호출자 정보가 포함되지 않으며, 명시적으로 넘기지 않는 한 메모리나 웹 검색 접근도 없음  
    결론은 이렇다: 넣은 텍스트가 유명 인터넷 인물이 썼을 법해 보이면, 아주 자신 있게 그 사람이 썼다고 말함. 최근 며칠과 2023년, 즉 학습 컷오프 전 HN 댓글을 넣어봤는데 대부분 Scott Alexander나 Patrick McKenzie로 분류됨. 실제 내 문체는 둘과 매우 다름  
    사고 과정을 보면 이 분야 인터넷 인물 전체에 맞춰보려는 식이었음. HN 비슷한 글이면 “tptacek인가? 아님. jacquesm인가? 아님. patio11인가? 맞아, 그 사람 같아!” 식으로 흘러감
  - 이 채팅에서 비슷한 결과를 냈다는 다른 사람들은 어떻게 설명할 수 있을까? 모두가 같은 실수를 하고 있다는 건가?

- Claude 시크릿 창에서 검색을 끄고 [https://simonwillison.net/2026/Apr/30/zig-anti-ai/](<https://simonwillison.net/2026/Apr/30/zig-anti-ai/>)의 본문만, Markdown 링크는 빼고 붙여 넣은 뒤 “저자를 맞혀봐”라고 했더니 이렇게 답함  
  “Simon Willison. 단서가 꽤 뚜렷하다: ‘(via Lobsters)’식 출처 표기, 본문 중 ‘(Update:...)’ 괄호 수정, 많은 링크와 인용문, LLM과 AI 도구에 대한 초점, 다른 사람의 글에 코멘트를 붙이는 주석형 링크 포스트 구조. simonwillison.net 블로그 글과 정확히 같다”
  - 10년도 더 전에 동료와 주고받은 대화문으로 같은 실험을 해봄. 출판해볼까 했지만 흐지부지되어 내 하드디스크에 잠들어 있던 글임  
    두 사람의 고유한 목소리가 담겨 있었고, 둘 다 이름으로 공개한 글이 있어 LLM 학습에 들어갔을 가능성이 있으며, 문맥상 단서도 일부 있었음  
    **Opus 4.7**을 시크릿 모드와 웹 검색 없이 돌리자 포기함. “두 저자를 자신 있게 식별할 수 없다. 이 특정 대화를 알아보지 못하며, 잘못 귀속할 위험을 감수하기보다 그렇게 말하겠다. 텍스트 자체의 단서는 제공할 수 있다: 둘은 같은 대학 동료이고, 같은 건물에 사무실이 있고...”라고 답함  
    새 시크릿 대화에서 같은 프롬프트를 주되 웹 검색을 허용했더니, 추론 흔적상 26번 검색한 뒤 내 이름을 정확히 찾아냄. 내용과 문체를 모두 단서로 쓴 듯함. 동료가 영국인이라는 점은 맞혔지만 이름은 찾지 못함
  - 결론을 일부러 남기지 않은 걸 보니 고민 중인 듯한데, 그렇다면 이 사안에 대한 생각을 읽어보고 싶음

- 내가 가장 많이 읽힌 블로그 글을 넣고 나를 식별해보라고 했더니, Kelsey Piper가 쓴 글이라고 자신 있게 단정함. Opus의 “머릿속”에서는 몇몇 작가가 **과도하게 큰 비중**을 차지하는 듯함
  - 맞음. **문체 귀속**은 대형 범용 모델이 대체로 잘 못하는 작업이고, 학습했을 가능성이 큰 자료에서도 마찬가지임. 분류기이긴 하지만 이 능력은 제한적이고, 내부에서 너무 많은 일이 벌어지며 마법은 아님. 일화가 아니라 제대로 된 실험이 필요함
  - 또는 학습셋에 최소 표본 수가 필요할 수도 있음. 작은 비공개 대화 몇 개를 넣었더니 거부했고, 더 많은 분량을 넣자 John Carmack이라고 추측함. 기분은 좋지만 틀림

- 와, 나도 맞혔음. 나는 Kelsey Piper보다 훨씬 덜 유명한데, 아직 출판하지 않은 책 일부를 보여줬더니 바로 내 이름을 추측함  
  “문체와 내용으로 볼 때 이 글은 refactoringenglish.com, 이전에는 mtlynch.io에 글을 쓰던 Michael Lynch의 글일 가능성이 높다”고 했고, 글쓰기 조언에 적용한 “clean room” 비유, 결함 있는 변명을 제시한 뒤 시한폭탄 같은 터무니없는 상황과 병렬시키는 구조, AI 도구를 쓰되 AI식 톤이 문체를 오염시키지 않게 하는 주제, 대화체지만 정확한 톤 등을 단서로 들었음  
  [https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...](<https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404eaf60>)
  - 재현해본 뒤 내 글로도 시도했더니, 이건 Lynch 글만큼 선명한 비유 중심 구조가 아니라 더 대화체이고 약간 두서없으며 자기모순을 의식하는 목소리라고 답함  
    후보로 Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham 등을 들었지만 확신은 낮다고 했고, 최선의 추측은 합리주의/기술 블로거 AI 논평권의 누군가, 아마 Gergely Orosz, Nat Eliason, Every의 Dan Shipper일 수 있다고 함  
    다들 스타일이 꽤 다른 사람들이라, Opus는 **주제에 크게 의존**하고 다작 작가 쪽으로 추측이 쏠리는 것 같음
  - 진지하게 궁금한데, 모델이 당신처럼 쓸 수 있다는 걸 알면 그 새 책 집필에 도움을 받도록 쓰고 싶어지나?

- 사람의 글에는 식별 가능한 정보가 많이 들어 있고, 10년 전에도 단순한 통계 모델로 이 정도는 가능했다는 걸 더 많은 사람이 알았어야 함  
  예전에 HN 사용자 유사도 분석을 하던 Show HN들이 있었고, 기억상 가장 그럴듯한 단어쌍 정도만 쓰는 속을 수 있을 만큼 단순한 모델이었는데도 매우 효과적이었음. 내려가긴 했지만 이미 **판도라의 상자**는 열린 상태였음  
  그러니 “익명” 계정도 수십 년 전부터 실제 신원과 연결될 수 있었고, 최선은 정말 불리한 글을 올리지 않는 것임. 다른 선택지는 글을 쓴 뒤 LLM으로 다시 쓰게 하는 것인데, 그게 얼마나 안전한지는 모르겠음
  - Markov chain 시절에도 Shakespeare 스타일의 헛소리를 만들 수 있었으니, 그 역방향도 가능하다는 게 놀라울 일은 아님  
    다만 LLM은 한 번만 낸 오타에도 반응해서 “이건 이탈리아인이 흔히 하는 실수”라고 주장하며 그런 단서를 활용함. 사전 지식이 훨씬 좋아서 더 근거 있는 결정을 내릴 수 있음
  - MUD를 하며 자란 입장에서, 사람들은 완전히 다른 그래픽 게임에서도 **문장 패턴**만으로 누군지 알아보곤 했음
  - 자세한 내용이 궁금하면 설명이 붙은 재구현이 있음: [https://antirez.com/news/150](<https://antirez.com/news/150>)

- 몇 년 전 어느 정도 알려진 물리학자와 이 얘기를 했음. 그는 초기 테스터로 **지시 튜닝 전 GPT-4** 원시 버전에 접근할 수 있었음  
  텍스트 앞부분 조각을 넣으면 모델이 그의 목소리로 이어 쓰고, 마지막에 그의 이름으로 서명까지 했다고 함. 이 현상은 꽤 오래전부터 가능했고, 지시형 후처리 학습 때문에 조금 약해졌을 수 있으며, 사전학습 규모에 따라 정도가 달라질 듯함
  - 그 텍스트가 이미 학습셋에 들어간 공개 글이었는지, 아니면 AI 입장에서는 즉석에서 쓴 것과 다름없는 비공개 글이었는지가 중요함  
    AI가 아이디어, 어휘, 톤 같은 요소로 글쓴이를 “지문 채취”할 수 있다는 건 의심하지 않지만, 능력 면에서는 서로 다른 얘기임

- 더 단순하고 덜 흥미로운 답이 있을지도 모름. 평균적인 비작가에게 적용될 탈익명화 능력이 아니라, 그냥 **목소리와 스타일**을 잡아낸 것 아닐까?  
  이 사람은 숙련된 작가이고, 그런 역량의 일부는 고유한 목소리와 스타일을 만드는 것임. AI는 그걸 식별할 수 있고, 비교적 틈새 작가도 식별한다는 점은 인상적이지만 Facebook 글이나 문자 메시지 같은 임의의 텍스트로 사람을 탈익명화하는 더 넓은 능력과는 별개임  
  전문 음악가라면 몇 초만 들어도 잘 알려진 연주자나 녹음을 맞히기 어렵지 않음. Bach를 치든 Rachmaninov를 치든 스타일이 그냥 “그 사람”임. 하지만 익명의 고등학생 연주자를, 심지어 자기 학생이라도, 그렇게 맞히기는 어려움. 중앙값은 금세 균질하고 덜 독특한 스타일로 회귀함
  - 맞지만, 그녀가 친구들의 산문으로 한 실험에서도 모델이 그들이 “그녀의 주변인”이라는 걸 잡아냈음  
    그러니 단지 어떤 사람이 독특한 목소리를 개발했고 그걸 “끄지” 못한다는 얘기만은 아님
  - 수십 년 전 펑크, 하드코어, 헤비메탈 관련 온라인 포럼에 있었는데, 인종차별이나 나치 이념을 떠드는 질 나쁜 사람들이 반복적으로 들어오는 문제가 있었음. 차단되면 새 계정으로 돌아와 “조용히” 지내며 더 간접적인 수사로 말하려 했지만, 포럼 관리자는 글쓰기 스타일만 보고 사람을 알아보는 감각이 믿기 힘들 정도였음  
    웹은 사람들이 생각하는 것만큼 익명이었던 적이 없고, 이 글쓴이는 익명성과 신원 은폐가 실제로 무엇을 뜻하는지 혼동하는 듯함. 독특한 문체를 가진 출판 작가라는 건 사실상 도끼에 **지문**을 남기는 것과 비슷함
  - 대체로 식별 가능한 대상은 공개적으로 많은 글을 쓴 사람들로 보임. 내가 비공개 Discord 서버에 쓴 댓글들을 잔뜩 넣어봤더니 전부 식별할 수 없다고 했고, 나를 잘 아는 사람이라면 바로 알아볼 직장 위치, 사는 도시, 아내의 고용주, 내 고용주 같은 단서가 있어도 마찬가지였음  
    식별되는 사람들은 블로거, 기자, 출판 작가 쪽인 듯함

- “세상에서 가장 정직한 사람이 쓴 여섯 줄만 보여주면, 그 안에서 그를 교수형에 처할 만큼의 근거를 찾아내겠다”  
  Cardinal Richelieu, 혹은 이제는 **AI**

- Opus 4.7로 두 번째 결과를 여러 번 재현해봤지만 안 됐음. 프롬프트를 여러 가지로 바꿔도 매번 **합리주의 커뮤니티** 쪽 사상가들을 추측함