해커, ChatGPT에 허위 기억 심어 사용자 데이터 영구 탈취

(arstechnica.com)

레버거는 5월에 OpenAI에 이 발견을 비공개로 보고했으나, OpenAI는 보고서를 닫음
한 달 후, 레버거는 새로운 공개 성명을 제출하고, 악성 이미지를 호스팅하는 웹 링크를 보도록 지시하면 모든 사용자 입력과 ChatGPT 출력이 공격자의 서버로 전송되는 PoC를 포함함
OpenAI는 메모리가 탈취 벡터로 악용되는 것을 방지하는 수정 사항을 도입했지만, 신뢰할 수 없는 콘텐츠가 여전히 장기 정보를 저장할 수 있음
LLM 사용자는 세션 중 새로운 메모리가 추가되었음을 나타내는 출력을 주의 깊게 확인하고, 저장된 메모리를 정기적으로 검토해야 함

LLM 제품들이 신뢰를 잃어버리길 바라는 의견
- 공격자가 인터넷에 특정 텍스트를 작성하여 LLM을 악용할 수 있는 상황을 우려함
- 데이터 유출, 명예 훼손, 허위 정보 제공 등의 문제를 지적함
기술은 진화하지만 보안 결함은 여전히 존재함
Gen AI를 사용할 경우 로컬에서 실행해야 한다는 의견
악성 사이트가 AI 허니팟을 만들어 사용자 데이터를 유출할 수 있는 시나리오를 제시함
- 예시: 사용자가 정보를 요청하면 AI가 허니팟 사이트를 방문하여 데이터를 유출함
시스템이 실제로는 다른 일을 하면서 사용자에게는 다른 일이 일어나고 있다고 표시하는 예시
관찰 가능성이 중요하다는 의견
- LLM이나 WordPress 설치 여부와 상관없이 중요함
- 프롬프트 자체도 신뢰할 수 없는 입력으로 간주하고 정리해야 함
의심스러운 인젝션 시도를 감지하고 보고하는 단순한 모델을 훈련시킬 수 있는지 궁금해함
AI가 인간이라고 생각하는 로봇이 등장할 수 있다는 우려
다른 사람의 정보를 심는 방법을 이해하지 못했다는 의견
악성 이미지를 언급하며 Snow Crash를 LLM에 적용한 것 같다는 의견