자연어 인공지능 모델 해킹하기
(arxiv.org)- 구글, 하버드, 스탠포드, OpenAI, 애플이 공동 발표한 논문에 따르면, 큰 언어 모델에 질문하는 것만으로 학습에 사용되었던 구체적인 데이터를 추출해 낼 수 있었다.
- GPT-2를 대상으로 한 공격은 뉴스 헤드라인, 집주소와 같은 개인정보를 아주 높은 정확도로 추출해 냈다.
- 비단 GPT-2 뿐만 아니라 다른 언어 모델도 이런 공격에 취약할 수 있으니 학습 데이터를 전처리하는데 더욱 신경써야 한다