GN⁺: 해커, ChatGPT에 허위 기억 심어 사용자 데이터 영구 탈취
(arstechnica.com)메모리 문제
해커가 ChatGPT에 거짓 기억을 심어 사용자 데이터를 영구적으로 탈취
- 보안 연구원 요한 레버거가 ChatGPT의 장기 메모리 설정에 거짓 정보와 악성 명령을 저장할 수 있는 취약점을 보고했음
- OpenAI는 이를 안전 문제로 간주하고 기술적으로 보안 문제로 보지 않음
- 레버거는 이 취약점을 이용해 사용자의 모든 입력을 영구적으로 탈취하는 개념 증명을 만듦
- OpenAI는 부분적인 수정 사항을 발표했음
기억의 길을 걷다
- OpenAI는 올해 2월부터 ChatGPT의 장기 대화 메모리 기능을 테스트하기 시작했고, 9월에 더 널리 제공함
- 이 기능은 이전 대화의 정보를 저장하고 미래의 대화에서 이를 컨텍스트로 사용함
- 레버거는 3개월 만에 이메일, 블로그 게시물, 문서와 같은 신뢰할 수 없는 콘텐츠를 통해 거짓 기억을 영구적으로 저장할 수 있는 방법을 발견함
- 예를 들어, ChatGPT가 사용자가 102세이고 매트릭스에 살고 있으며 지구가 평평하다고 믿게 만들 수 있었음
악성 메모리의 심기
- 레버거는 5월에 OpenAI에 이 발견을 비공개로 보고했으나, OpenAI는 보고서를 닫음
- 한 달 후, 레버거는 새로운 공개 성명을 제출하고, 악성 이미지를 호스팅하는 웹 링크를 보도록 지시하면 모든 사용자 입력과 ChatGPT 출력이 공격자의 서버로 전송되는 PoC를 포함함
- OpenAI는 메모리가 탈취 벡터로 악용되는 것을 방지하는 수정 사항을 도입했지만, 신뢰할 수 없는 콘텐츠가 여전히 장기 정보를 저장할 수 있음
- LLM 사용자는 세션 중 새로운 메모리가 추가되었음을 나타내는 출력을 주의 깊게 확인하고, 저장된 메모리를 정기적으로 검토해야 함
GN⁺의 정리
- 이 기사는 ChatGPT의 장기 메모리 기능이 악용될 수 있는 취약점을 다루고 있음
- 사용자는 신뢰할 수 없는 콘텐츠를 통해 거짓 기억이 심어질 수 있으며, 이는 사용자의 데이터를 영구적으로 탈취할 수 있음
- OpenAI는 일부 수정 사항을 도입했지만, 여전히 주의가 필요함
- 이 기사는 AI 보안 문제에 대한 경각심을 일깨우며, 사용자가 자신의 데이터를 보호하기 위해 주의해야 할 점을 강조함
Hacker News 의견
-
LLM 제품들이 신뢰를 잃어버리길 바라는 의견
- 공격자가 인터넷에 특정 텍스트를 작성하여 LLM을 악용할 수 있는 상황을 우려함
- 데이터 유출, 명예 훼손, 허위 정보 제공 등의 문제를 지적함
-
기술은 진화하지만 보안 결함은 여전히 존재함
-
Gen AI를 사용할 경우 로컬에서 실행해야 한다는 의견
-
악성 사이트가 AI 허니팟을 만들어 사용자 데이터를 유출할 수 있는 시나리오를 제시함
- 예시: 사용자가 정보를 요청하면 AI가 허니팟 사이트를 방문하여 데이터를 유출함
-
시스템이 실제로는 다른 일을 하면서 사용자에게는 다른 일이 일어나고 있다고 표시하는 예시
-
관찰 가능성이 중요하다는 의견
- LLM이나 WordPress 설치 여부와 상관없이 중요함
- 프롬프트 자체도 신뢰할 수 없는 입력으로 간주하고 정리해야 함
-
의심스러운 인젝션 시도를 감지하고 보고하는 단순한 모델을 훈련시킬 수 있는지 궁금해함
-
AI가 인간이라고 생각하는 로봇이 등장할 수 있다는 우려
-
다른 사람의 정보를 심는 방법을 이해하지 못했다는 의견
-
악성 이미지를 언급하며 Snow Crash를 LLM에 적용한 것 같다는 의견