뉴욕타임스의 사용자 프라이버시 침해에 맞선 대응
(openai.com)- OpenAI는 8억 명 이상이 사용하는 ChatGPT의 개인 대화 데이터 보호를 최우선 과제로 삼고 있음
- 뉴욕타임스(The New York Times) 가 2천만 건의 개인 ChatGPT 대화 기록 제출을 법원에 요구하며, 이는 사용자의 프라이버시를 침해하는 행위로 지적됨
- OpenAI는 과거에도 14억 건의 대화 기록 요구를 거부한 바 있으며, 이번에도 법적 절차를 통해 사용자 데이터 보호를 지속 추진 중임
- 회사는 클라이언트 측 암호화 등 강화된 보안 기능을 개발 중이며, 민감한 데이터 접근을 최소화하는 자동화 시스템을 구축하고 있음
- 이번 사안은 AI 시대의 개인정보 보호 기준을 둘러싼 중요한 분기점으로 평가됨
뉴욕타임스의 데이터 요구와 OpenAI의 입장
- 뉴욕타임스는 OpenAI를 상대로 한 소송 과정에서 2천만 건의 ChatGPT 사용자 대화 기록 제출을 요구함
- 그 이유로 “사용자들이 ChatGPT를 이용해 뉴욕타임스의 유료벽(paywall)을 우회했는지 확인하기 위해서”라고 주장함
- OpenAI는 이 요구가 오랜 기간 유지된 프라이버시 보호 원칙과 보안 관행을 위반한다고 밝힘
- 회사는 “이 소송과 무관한 수천만 명의 개인 대화가 포함된다”며 법원에 해당 요구 기각을 요청함
과거의 유사 요구와 대응
- 뉴욕타임스는 과거에도 사용자의 대화 삭제 기능 제한을 시도했으나, OpenAI가 이를 막고 삭제 권한을 복원함
- 이어서 14억 건의 대화 기록 제출 요구가 있었으나, OpenAI는 이를 거부함
- OpenAI는 “사용자의 개인 대화는 개인의 소유이며, 온라인 콘텐츠 접근 분쟁의 희생양이 되어서는 안 된다”고 명시함
OpenAI의 보안 및 프라이버시 강화 조치
- OpenAI는 세계에서 가장 공격받는 조직 중 하나로, 조직범죄 및 국가 지원 해킹 시도로부터 데이터를 보호하기 위해 대규모 투자를 진행 중임
- 향후 로드맵에는 클라이언트 측 암호화(client-side encryption) 기능이 포함되어 있으며, 이를 통해 OpenAI조차 사용자 메시지에 접근할 수 없게 할 계획임
- 자동화된 안전성 감지 시스템을 구축해, 생명 위협·타인 피해·사이버 보안 위험 등 심각한 오용 사례만 제한적으로 인간 검토팀에 전달하도록 설계 중임
데이터 요구 관련 세부 사항 (FAQ 요약)
- 요구된 데이터 범위: 2022년 12월~2024년 11월 사이의 무작위로 추출된 2천만 건의 소비자용 ChatGPT 대화
- 영향 제외 대상: ChatGPT Enterprise, ChatGPT Edu, ChatGPT Business(구 Team), API 고객은 해당되지 않음
- 개인정보 보호 조치: 모든 대화는 개인식별정보(PII) 및 비밀번호 등 민감 정보 제거 절차를 거침
- 데이터 접근 권한: OpenAI의 법무·보안팀 일부 인원과 뉴욕타임스 측 외부 변호사 및 기술 자문단만 접근 가능
- 보관 방식: 법적 의무 이행을 위한 별도 보안 시스템 내 격리 저장, 일반 접근 불가
법적·국제적 고려사항
- OpenAI는 GDPR 등 국제 프라이버시 법규 준수를 위해 필요한 조치를 취하고 있으나, 뉴욕타임스의 요구는 자사 프라이버시 기준에 부합하지 않는다고 명시함
- 회사는 법적 절차를 통해 요구를 계속 다투고 있으며, 모든 단계에서 사용자 프라이버시 보호를 최우선으로 유지할 것임
- OpenAI는 향후 법원 결정 및 데이터 처리 변화에 대한 투명한 업데이트 제공을 약속함
향후 계획과 비전
- OpenAI는 AI가 개인의 삶에 깊이 통합될수록 보안과 프라이버시 보호 수준이 강화되어야 한다고 강조함
- 사용자의 가장 개인적인 AI 대화가 안전하고 비공개로 유지되는 미래를 목표로 함
- 단기적으로는 보안 강화 및 단기 완화 조치를 신속히 공개할 예정임
- 장기적으로는 신뢰 가능한 AI 환경 구축을 위한 기술적·법적 보호 체계 확립을 추진 중임
Hacker News 의견
- 뉴욕타임스가 OpenAI에 2천만 건의 ChatGPT 대화 기록을 제출하라고 요구했다는 소식을 들음
원고로서 당연히 할 수 있는 요청이지만, 이런 소송은 저작권 문제에만 국한되지 않을 수도 있음
오히려 문제는 OpenAI가 왜 이렇게 많은 비공개 대화 데이터를 수집하고 보관하고 있는가임
NYT의 요청은 법적 절차 내에서만 사용되고, 기밀 정보는 가려진 채로 제출되며, 소송이 끝나면 폐기됨
반면 OpenAI는 상업적 이익을 위해 데이터를 무기한 보관함
정작 어떤 비즈니스 모델을 위해 이런 데이터를 쌓는지도 불분명함. 무분별한 데이터 수집 행위라고 생각함- 실제로 법원이 명령한 것은 데이터를 ‘수집’하라는 게 아니라 이미 보관 중인 데이터를 보존(preserve) 하라는 것임
관련 문서: 법원 명령서 1, 법원 명령서 2 - 하지만 다른 사람은 이게 실제로 데이터 수집을 강제하는 법원 명령이라고 주장함
Ars Technica 기사를 참고함 - OpenAI가 대화를 저장하는 이유는 명확함. ChatGPT 인터페이스에서 대화 히스토리 기능을 제공하기 때문임
사용자가 삭제 버튼을 눌러도 법원 명령 때문에 데이터를 유지해야 하는 게 문제임 - Google Photos가 사진을 저장하듯, ChatGPT도 대화 기록을 저장해야 함. 제품의 핵심 기능임
- ChatGPT를 써봤다면 왼쪽 패널에 대화 기록이 보인다는 걸 알 것임
- 실제로 법원이 명령한 것은 데이터를 ‘수집’하라는 게 아니라 이미 보관 중인 데이터를 보존(preserve) 하라는 것임
- OpenAI가 NYT의 데이터를 무단으로 사용하지 않았다면 이런 일이 생기지 않았을 것임
결국 저작권 침해가 근본 원인이라고 생각함. NYT가 싸우는 건 잘한 일임- 하지만 다른 사람은 이미 두 명의 판사가 AI 학습은 공정 이용(fair use) 이라고 판결했다고 반박함
관련 판결 요약 - 데이터는 공공재로 취급되어야 한다는 의견도 있음. 특정 기업이 데이터 소유권을 주장하는 게 문제라고 봄
- NYT는 인터넷을 폐쇄적인 유료벽(paywall) 으로 오염시키는 존재라고 비판함
오픈 문화에 기여하지 않으면서 주목만 얻는 건 위선적이라고 생각함 - Sam Altman과 OpenAI 경영진이 공포와 불확실성(FUD) 을 퍼뜨려 투자만 유치했다고 비판함
AGI 약속은 거짓이었고, 사람들만 불안하게 만들었다고 분노함
- 하지만 다른 사람은 이미 두 명의 판사가 AI 학습은 공정 이용(fair use) 이라고 판결했다고 반박함
- 나는 OpenAI가 ‘착한 쪽’이라고 생각하지 않음
하지만 사람들이 사적으로 나눈 대화가 NYT 변호사들 손에 들어가는 건 불편함
NYT는 명확한 피해를 입증하지 못했기 때문에 ‘낚시식 탐색(fishing expedition)’ 을 하는 것처럼 보임- 그러나 다른 사람은 NYT가 실제로 콘텐츠 도용 증거를 제시했으며, 이를 확인하려면 로그 전체가 필요하다고 설명함
불법 복제 서점의 판매 기록을 요구하는 것과 같다고 비유함
사용자는 법적으로 프라이버시 권리를 주장하기 어렵다고 함 - 또 다른 사람은 NYT가 법정 손해배상(statutorily defined damages) 을 청구 중이라 실제 피해 입증은 필요 없다고 설명함
핵심은 AI 학습이 저작권 침해인지, 그리고 공정 이용인지 여부임
OpenAI가 소송 과정에서 불성실하게 대응한 점도 지적함 - “NYT가 피해를 입증하지 못했다”는 주장은 틀렸다고 반박하며, 실제 소장(complaint) 을 읽어보라고 함
NYT 소장 PDF - 어떤 사람은 이 싸움이 결국 중국과 오픈소스 모델에게 유리하게 작용할 거라고 봄
저작권을 무시할 수 있는 쪽이 경쟁 우위를 갖게 될 것임 - 사실 대부분의 서비스 약관에는 법원 명령 시 로그를 제출할 수 있다고 명시되어 있음
다들 그걸 읽지 않았을 뿐임
- 그러나 다른 사람은 NYT가 실제로 콘텐츠 도용 증거를 제시했으며, 이를 확인하려면 로그 전체가 필요하다고 설명함
- 요즘 기업들이 고객에게 공개 서한을 써서 여론전을 벌이는 게 유행인 듯함
ESPN vs YouTube, 이번엔 OpenAI vs NYT
둘 다 별로 응원하고 싶지 않음. 다만 OpenAI가 정말 NYT 문장을 그대로 출력하지 않는다면, 검증을 두려워할 이유가 없다고 생각함
중립 제3자 검증을 제안함 — 제3자가 NYT 기사와 ChatGPT 로그를 비교하고, 양측은 원본을 직접 보지 않는 방식임- 하지만 현실적으로 완전한 중립 기관을 찾는 건 불가능함
결국 각자 전문가를 내세워 법정에서 신뢰성 대결을 벌이는 수밖에 없음 - 어떤 사람은 두 조직 모두 권위주의적 리더십 아래 있으니 그냥 싸우게 두자는 냉소적 반응을 보임
- 하지만 현실적으로 완전한 중립 기관을 찾는 건 불가능함
- OpenAI는 비영리에서 출발했지만 지금은 완전히 변질된 홍보전(스핀) 을 벌이고 있다고 봄
- Google이 프라이버시를 말할 때처럼, OpenAI의 주장도 전혀 진정성이 느껴지지 않음
그래도 이번 사건이 사람들에게 개인정보 과공유의 위험성 을 깨닫게 하는 계기가 되길 바람- “당신의 데이터는 당신의 것”이라는 문구는 프로파간다 같음
실제로는 약관에 따라 OpenAI가 데이터를 소유하고 활용함
NYT의 의도를 왜곡하는 식의 커뮤니케이션도 신뢰하기 어려움 - OpenAI가 전 세계 데이터를 무차별적으로 긁어모은 결과 이런 사태가 벌어진 것임
스스로 자초한 일이라고 생각함 - 아이러니하게도 Google은 과거 위치 기록(Local Timeline) 문제를 인식하고 로컬 저장 방식으로 바꾼 적이 있음
OpenAI는 그런 책임감이 전혀 없음 - 어떤 사람은 아예 OpenAI가 파산하는 게 세상에 이롭다고까지 말함
- “당신의 데이터는 당신의 것”이라는 문구는 프로파간다 같음
- OpenAI가 법정에서 “우리는 사용자 데이터에 관심 없다”고 주장하는 게 이해되지 않음
그럼 왜 지금 프라이버시를 방패로 내세우는지 의문임 - “이 소송은 근거 없다”고 말하는 순간부터 신뢰가 떨어짐
그런 주장은 보통 방어적 태도의 신호임 - 아이러니하게도 OpenAI는 처음부터 개인정보를 긁어모아 모델을 훈련시킨 회사임
이제 와서 프라이버시를 걱정하는 건 모순임 - OpenAI가 대화를 저장할 때 암호화(encryption) 를 적용하지 않는 이유가 궁금함
기술적으로는 가능해 보이는데, 아마 내부 분석을 위해 평문 저장을 택한 듯함
직원이 접근할 수 있다면 NYT 변호사가 보는 것보다 더 불편함
법원 명령으로 조사관이 편지를 열람하는 것과 다를 바 없다고 생각함- 하지만 실제로는 매 요청마다 전체 대화를 다시 모델에 넣는 게 아니라, K-V 캐시 시스템을 써서 효율적으로 이어가는 구조일 것임
- 게다가 암호화를 해도 열쇠를 OpenAI가 쥐고 있다면 법원 명령을 피할 수 없음