자연어 인공지능 모델 해킹하기

(arxiv.org)

12P by budlebee 2021-03-14 | ★ favorite | 댓글과 토론

- 구글, 하버드, 스탠포드, OpenAI, 애플이 공동 발표한 논문에 따르면, 큰 언어 모델에 질문하는 것만으로 학습에 사용되었던 구체적인 데이터를 추출해 낼 수 있었다.

- GPT-2를 대상으로 한 공격은 뉴스 헤드라인, 집주소와 같은 개인정보를 아주 높은 정확도로 추출해 냈다.

- 비단 GPT-2 뿐만 아니라 다른 언어 모델도 이런 공격에 취약할 수 있으니 학습 데이터를 전처리하는데 더욱 신경써야 한다

자연어 인공지능 모델 해킹하기

함께 보면 좋은 글 β