OpenAI, 모든 ChatGPT 로그를 저장하라는 법

▲

GN⁺ 11달전 | parent | ★ favorite | on: OpenAI, 모든 ChatGPT 로그를 저장하라는 법원 명령에 강력 반발(arstechnica.com)

Hacker News 의견

GPT 모델을 API로 사용할 때도 같은 위험성 존재함에 주목함

ChatGPT Free, Plus, Pro 이용자와 API 사용자 모두에게 이 위험이 확장된다고 OpenAI에서 언급함
이런 상황은 OpenAI 비즈니스에 매우 불리한 현상이라는 생각임
- 이건 머지않아 모든 AI 회사들이 겪을 문제라고 생각함
  모두가 직접 모델을 호스팅하는 환경으로 바뀌지 않는 이상, SaaS같은 비즈니스 모델에선 수익성을 고려할 때 사용자의 프라이버시 보호가 크게 중요하지 않은 현실임
  솔직히 대부분의 사람들은 이미 인터넷에서 프라이버시란 게 없다는 사실에 익숙해진 상태임
  다만 폐쇄형 소스 코드나 보안 관련 데이터를 신뢰를 바탕으로 맡길 기업이나 사람들은 상당히 타격을 입을 수밖에 없음
  근데 그런 부분은 애초에 어느 업체에도 외주를 주면 안 된다는 입장임
- 이미 자리를 잡은 기업들은 이번 이슈로 기존 계약, 규정, 리스크 허용 범위를 재검토해야 하는 필요성 있음
  ChatGPT 기반 서비스의 래퍼 스타트업들도 프라이버시 정책을 재점검하고, 사용자가 프라이버시를 포기하고 있다는 사실을 명확히 밝혀둘 필요 있음
- 내가 도입했던 모든 GPT 통합은 Azure 서비스를 통한 이유가 내 데이터로 학습하지 않겠다는 계약상의 의무 때문임
  내가 이해하기론 Azure 서비스, 즉 Microsoft에는 이번 판결이 적용되지 않는 걸로 알고 있음
- 만약 너가 독점 코드를 다뤘던 상황이면, 클라우드 LLM은 애초에 사용하면 안 됐던 셈이고, 이번 이슈로 그 사실이 더 명확해진 느낌임
- 어떻게 비즈니스에 타격이냐는 질문에 대해, 이것은 법적 리스크 대비로 데이터를 보관하는 조치이지, 훈련 목적으로 쓰기 위한 게 아님을 강조함
  다른 기업들과의 계약에서도 데이터를 학습에 사용하지 않는다는 조건을 계약상에 명시할 수 있다고 생각함
더 자세한 배경 기사를 여기에서 확인 가능함
- 이 링크가 실제 자료원임
  해당 글로 링크를 업데이트하는 게 좋을 듯함
- 기사 밑에 달린 댓글들이 정말 웃긴 분위기라 소개함
  저작권 옹호자들을 반AI 진영으로 그리며 풍자하는 느낌임
  개인적으로 OpenAI가 남의 콘텐츠를 대하는 안하무인 태도는 별로 좋아하지 않지만, 한편으로 저작권자도 지나치게 강한 요구를 하는 것은 공감하기 어려움
  생성형 AI와 훈련 문제는 현행 지식재산권법의 시대착오적 요소를 극명하게 드러낸다고 봄
  앞으로 변화가 필요하지만 그 변화가 대기업이나 부자들만 유리하게 가선 안 되고, 평범한 사람들에게 도움이 되어야 한다고 생각함
- LLM의 저작권 침해에 대체로 비판적인 입장이지만, 이번 판결의 논리 전개 방식은 다소 이상하게 느껴짐
  판사가 hypothetical로 ChatGPT를 통해 어떤 사용자가 유료벽을 우회해서 New York Times 콘텐츠를 뽑아내고, 이후 사건을 알게 된 뒤 자신이 내보낸 기록 모두를 삭제해 달라고 요구하면 판결의 취지를 회피하는 게 아니냐는 지적임
  사실 이런 판결이 나왔다는 걸 들으면 사용자는 그 기간 동안 조심하게 되지 않을까 하는 의문이 듦
- OpenAI가 이제는 사용자가 대화 내역을 삭제하거나 Temporary Chat 기능으로 임시 대화를 해도, 법적 명령 때문에 로그를 남겨야 하는 상황이 평범한 웹브라우저 이력과 다를 게 뭐냐는 비판임
  Safari가 사용자가 지운 기록까지 무조건 저장해야 하는 등, 왜 OpenAI만 특별히 강제되는지 의아함
더 나은 기사 링크를 스레드에 제시함
아르스 테크니카 원문 기사 링크임
단순 Mastodon 게시글이 아니라 실제 정보가 담긴 기사를 참고해야 한다고 덧붙임
최근 Hacker News에서 LLM의 장점이나 단점을 논하는 개인적인 칼럼이 여럿 올라오는데, 프라이버시 문제는 전혀 언급하지 않는 경향이 있음
내가 LLM을 활용하거나 소스 코드를 Prompt 창에 붙이지 않는 핵심 이유는 프라이버시 때문임
우리 회사는 NDA와 ITAR 같은 정부 규제 때문에 코드가 서버 밖으로 나가면 바로 규정 위반임
이번 이슈는 프라이버시가 LLM의 아킬레스건임을 보여줌
LLM이 온프레미스 형태로 자리잡기 전엔 이 문제에서 자유로울 수 없음
- 자기 서버에 LLM을 직접 호스팅하는 방법도 있으니, 이런 고민 해결에는 완전한 자가관리 방식이 정답임
  아주 쉽고 간단하게 직접 LLM을 구축할 수 있음
OpenAI가 데이터를 서버에 저장할 수밖에 없는 상황은, 소송 중인 기업들의 법무팀이 Discovery(문서제출명령) 절차에서 사용자와 ChatGPT의 대화 내역을 볼 수 있게 되는 상황으로 이어짐
예를 들어 NYT의 변호사들이 법정에서 당사자의 프라이빗한 대화를 근거 자료로 읽게 될 수 있음
- 차라리 대화 로그를 익명화해서 보관하는 것이 해법이 될 수 있다는 의견임
  OpenAI가 기술적으로 익명화 작업을 할 수도 있는데, 이 부분이 최적의 해결책으로 보임
- 이런 데이터는 Spectra TFinity ExaScale 라이브러리와 같은 테이프 스토리지 기반 솔루션, 혹은 AWS Glacier 등과 같이 깊게 아카이빙하는 시스템에 백업할 수 있음
  데이터 복구에 시간이 몇 시간~몇 일이 걸리는 이러한 구조라면 법원 명령도 지키고, 비용도 저렴하게 맞출 수 있으며
  대규모 정보 유출 시에도 오랜 시간과 노력을 들여야 훔칠 수 있어 탐지와 방어에 유리함
- 이제 미국 내 모든 클라우드 기반 AI와 주고받는 챗/API 콜은 모두 법적 검색 대상임을 전제로 의심해야 함
  만약 이게 감당 안 되는 리스크라면 로컬 LLM으로 전환을 진지하게 고려해야 함
Times 같은 매체가 어떻게 사용자의 데이터를 볼 수 있는 권리를 가지게 되는지 의문임
결국 이런 판결로 신문사 측이 사용자의 데이터를 들여다보게 되는 상황임
이 법원 명령은 한 곳 이상의 관할권에서 프라이버시 법률 위반 소지가 있고, OpenAI가 기존 고객들과 맺은 계약을 어기게 될 가능성도 존재함
- 기존 계약은 법원이 명령을 내리는 것에 아무런 영향을 주지 못한다는 설명임
  법적 명령이 최우선임
- 이번 명령 자체가 새로운 프라이버시법 위반을 추가로 만드는 건 아님
  애초에 데이터를 보관하고 제3자에 제공하는 것 자체가 위반이었음
- 이 명령이 실제로는 5월 13일 자로 소급 적용되고 있음
  OpenAI가 지금까지 사용자에게 별도 메일 등으로 이 사실을 알리지 않은 이유가 사업상 악영향 때문이라는 느낌임
  하지만, 사용자 신뢰를 명백히 저버린 행동으로 느껴짐
ChatGPT API를 통해 민감한 데이터를 주고받던 기업들이 입력, 출력 데이터가 저장되지 않는다는 설명을 믿었을 텐데
실제로는 OpenAI가 설정만 바꿔 버리면 데이터를 남길 수 있는 상황임
별도 공지가 갔던 건지, 아니면 다들 언론 보도를 통해서야 이 사실을 알게 된 건지 궁금함
원글 링크가 트래픽 과부하(HN hug of death)로 접속이 안 됐는데 Wayback Machine에서 읽는 데 성공함
Mastodon 개인 인스턴스여서 방문자가 급증하면 과부하 걸리는 게 이해됨