뉴욕타임스가 OpenAI에 2천만 건의 ChatGPT 대화 기록을 제출하라고 요구했다는 소식을 들음
원고로서 당연히 할 수 있는 요청이지만, 이런 소송은 저작권 문제에만 국한되지 않을 수도 있음
오히려 문제는 OpenAI가 왜 이렇게 많은 비공개 대화 데이터를 수집하고 보관하고 있는가임
NYT의 요청은 법적 절차 내에서만 사용되고, 기밀 정보는 가려진 채로 제출되며, 소송이 끝나면 폐기됨
반면 OpenAI는 상업적 이익을 위해 데이터를 무기한 보관함
정작 어떤 비즈니스 모델을 위해 이런 데이터를 쌓는지도 불분명함. 무분별한 데이터 수집 행위라고 생각함
실제로 법원이 명령한 것은 데이터를 ‘수집’하라는 게 아니라 이미 보관 중인 데이터를 보존(preserve) 하라는 것임
관련 문서: 법원 명령서 1, 법원 명령서 2
하지만 다른 사람은 이게 실제로 데이터 수집을 강제하는 법원 명령이라고 주장함 Ars Technica 기사를 참고함
OpenAI가 대화를 저장하는 이유는 명확함. ChatGPT 인터페이스에서 대화 히스토리 기능을 제공하기 때문임
사용자가 삭제 버튼을 눌러도 법원 명령 때문에 데이터를 유지해야 하는 게 문제임
Google Photos가 사진을 저장하듯, ChatGPT도 대화 기록을 저장해야 함. 제품의 핵심 기능임
ChatGPT를 써봤다면 왼쪽 패널에 대화 기록이 보인다는 걸 알 것임
OpenAI가 NYT의 데이터를 무단으로 사용하지 않았다면 이런 일이 생기지 않았을 것임
결국 저작권 침해가 근본 원인이라고 생각함. NYT가 싸우는 건 잘한 일임
하지만 다른 사람은 이미 두 명의 판사가 AI 학습은 공정 이용(fair use) 이라고 판결했다고 반박함 관련 판결 요약
데이터는 공공재로 취급되어야 한다는 의견도 있음. 특정 기업이 데이터 소유권을 주장하는 게 문제라고 봄
NYT는 인터넷을 폐쇄적인 유료벽(paywall) 으로 오염시키는 존재라고 비판함
오픈 문화에 기여하지 않으면서 주목만 얻는 건 위선적이라고 생각함
Sam Altman과 OpenAI 경영진이 공포와 불확실성(FUD) 을 퍼뜨려 투자만 유치했다고 비판함
AGI 약속은 거짓이었고, 사람들만 불안하게 만들었다고 분노함
나는 OpenAI가 ‘착한 쪽’이라고 생각하지 않음
하지만 사람들이 사적으로 나눈 대화가 NYT 변호사들 손에 들어가는 건 불편함
NYT는 명확한 피해를 입증하지 못했기 때문에 ‘낚시식 탐색(fishing expedition)’ 을 하는 것처럼 보임
그러나 다른 사람은 NYT가 실제로 콘텐츠 도용 증거를 제시했으며, 이를 확인하려면 로그 전체가 필요하다고 설명함
불법 복제 서점의 판매 기록을 요구하는 것과 같다고 비유함
사용자는 법적으로 프라이버시 권리를 주장하기 어렵다고 함
또 다른 사람은 NYT가 법정 손해배상(statutorily defined damages) 을 청구 중이라 실제 피해 입증은 필요 없다고 설명함
핵심은 AI 학습이 저작권 침해인지, 그리고 공정 이용인지 여부임
OpenAI가 소송 과정에서 불성실하게 대응한 점도 지적함
“NYT가 피해를 입증하지 못했다”는 주장은 틀렸다고 반박하며, 실제 소장(complaint) 을 읽어보라고 함 NYT 소장 PDF
어떤 사람은 이 싸움이 결국 중국과 오픈소스 모델에게 유리하게 작용할 거라고 봄
저작권을 무시할 수 있는 쪽이 경쟁 우위를 갖게 될 것임
사실 대부분의 서비스 약관에는 법원 명령 시 로그를 제출할 수 있다고 명시되어 있음
다들 그걸 읽지 않았을 뿐임
요즘 기업들이 고객에게 공개 서한을 써서 여론전을 벌이는 게 유행인 듯함
ESPN vs YouTube, 이번엔 OpenAI vs NYT
둘 다 별로 응원하고 싶지 않음. 다만 OpenAI가 정말 NYT 문장을 그대로 출력하지 않는다면, 검증을 두려워할 이유가 없다고 생각함 중립 제3자 검증을 제안함 — 제3자가 NYT 기사와 ChatGPT 로그를 비교하고, 양측은 원본을 직접 보지 않는 방식임
하지만 현실적으로 완전한 중립 기관을 찾는 건 불가능함
결국 각자 전문가를 내세워 법정에서 신뢰성 대결을 벌이는 수밖에 없음
어떤 사람은 두 조직 모두 권위주의적 리더십 아래 있으니 그냥 싸우게 두자는 냉소적 반응을 보임
OpenAI는 비영리에서 출발했지만 지금은 완전히 변질된 홍보전(스핀) 을 벌이고 있다고 봄
Google이 프라이버시를 말할 때처럼, OpenAI의 주장도 전혀 진정성이 느껴지지 않음
그래도 이번 사건이 사람들에게 개인정보 과공유의 위험성 을 깨닫게 하는 계기가 되길 바람
“당신의 데이터는 당신의 것”이라는 문구는 프로파간다 같음
실제로는 약관에 따라 OpenAI가 데이터를 소유하고 활용함
NYT의 의도를 왜곡하는 식의 커뮤니케이션도 신뢰하기 어려움
OpenAI가 전 세계 데이터를 무차별적으로 긁어모은 결과 이런 사태가 벌어진 것임
스스로 자초한 일이라고 생각함
아이러니하게도 Google은 과거 위치 기록(Local Timeline) 문제를 인식하고 로컬 저장 방식으로 바꾼 적이 있음
OpenAI는 그런 책임감이 전혀 없음
어떤 사람은 아예 OpenAI가 파산하는 게 세상에 이롭다고까지 말함
OpenAI가 법정에서 “우리는 사용자 데이터에 관심 없다”고 주장하는 게 이해되지 않음
그럼 왜 지금 프라이버시를 방패로 내세우는지 의문임
“이 소송은 근거 없다”고 말하는 순간부터 신뢰가 떨어짐
그런 주장은 보통 방어적 태도의 신호임
아이러니하게도 OpenAI는 처음부터 개인정보를 긁어모아 모델을 훈련시킨 회사임
이제 와서 프라이버시를 걱정하는 건 모순임
OpenAI가 대화를 저장할 때 암호화(encryption) 를 적용하지 않는 이유가 궁금함
기술적으로는 가능해 보이는데, 아마 내부 분석을 위해 평문 저장을 택한 듯함
직원이 접근할 수 있다면 NYT 변호사가 보는 것보다 더 불편함
법원 명령으로 조사관이 편지를 열람하는 것과 다를 바 없다고 생각함
하지만 실제로는 매 요청마다 전체 대화를 다시 모델에 넣는 게 아니라, K-V 캐시 시스템을 써서 효율적으로 이어가는 구조일 것임
Hacker News 의견
원고로서 당연히 할 수 있는 요청이지만, 이런 소송은 저작권 문제에만 국한되지 않을 수도 있음
오히려 문제는 OpenAI가 왜 이렇게 많은 비공개 대화 데이터를 수집하고 보관하고 있는가임
NYT의 요청은 법적 절차 내에서만 사용되고, 기밀 정보는 가려진 채로 제출되며, 소송이 끝나면 폐기됨
반면 OpenAI는 상업적 이익을 위해 데이터를 무기한 보관함
정작 어떤 비즈니스 모델을 위해 이런 데이터를 쌓는지도 불분명함. 무분별한 데이터 수집 행위라고 생각함
관련 문서: 법원 명령서 1, 법원 명령서 2
Ars Technica 기사를 참고함
사용자가 삭제 버튼을 눌러도 법원 명령 때문에 데이터를 유지해야 하는 게 문제임
결국 저작권 침해가 근본 원인이라고 생각함. NYT가 싸우는 건 잘한 일임
관련 판결 요약
오픈 문화에 기여하지 않으면서 주목만 얻는 건 위선적이라고 생각함
AGI 약속은 거짓이었고, 사람들만 불안하게 만들었다고 분노함
하지만 사람들이 사적으로 나눈 대화가 NYT 변호사들 손에 들어가는 건 불편함
NYT는 명확한 피해를 입증하지 못했기 때문에 ‘낚시식 탐색(fishing expedition)’ 을 하는 것처럼 보임
불법 복제 서점의 판매 기록을 요구하는 것과 같다고 비유함
사용자는 법적으로 프라이버시 권리를 주장하기 어렵다고 함
핵심은 AI 학습이 저작권 침해인지, 그리고 공정 이용인지 여부임
OpenAI가 소송 과정에서 불성실하게 대응한 점도 지적함
NYT 소장 PDF
저작권을 무시할 수 있는 쪽이 경쟁 우위를 갖게 될 것임
다들 그걸 읽지 않았을 뿐임
ESPN vs YouTube, 이번엔 OpenAI vs NYT
둘 다 별로 응원하고 싶지 않음. 다만 OpenAI가 정말 NYT 문장을 그대로 출력하지 않는다면, 검증을 두려워할 이유가 없다고 생각함
중립 제3자 검증을 제안함 — 제3자가 NYT 기사와 ChatGPT 로그를 비교하고, 양측은 원본을 직접 보지 않는 방식임
결국 각자 전문가를 내세워 법정에서 신뢰성 대결을 벌이는 수밖에 없음
그래도 이번 사건이 사람들에게 개인정보 과공유의 위험성 을 깨닫게 하는 계기가 되길 바람
실제로는 약관에 따라 OpenAI가 데이터를 소유하고 활용함
NYT의 의도를 왜곡하는 식의 커뮤니케이션도 신뢰하기 어려움
스스로 자초한 일이라고 생각함
OpenAI는 그런 책임감이 전혀 없음
그럼 왜 지금 프라이버시를 방패로 내세우는지 의문임
그런 주장은 보통 방어적 태도의 신호임
이제 와서 프라이버시를 걱정하는 건 모순임
기술적으로는 가능해 보이는데, 아마 내부 분석을 위해 평문 저장을 택한 듯함
직원이 접근할 수 있다면 NYT 변호사가 보는 것보다 더 불편함
법원 명령으로 조사관이 편지를 열람하는 것과 다를 바 없다고 생각함