AI 시스템은 결코 완전히 안전하지 않다 — 대응해야 할 ‘치명적 삼중 위협’

(economist.com)

사용자의 어뷰징을 가능케 하는 “치명적 삼합(lethal trifecta)”에 대한 대응 방법
자연어 지시를 그대로 따르는 LLM 에이전트는 데이터·명령 분리 부재로 인해 외부 텍스트 속 악성 지시까지 실행할 수 있는 구조적 취약성을 가짐
외부 콘텐츠 노출, 사적 데이터 접근, 외부 통신 능력이 결합되는 “치명적 삼합” 이 형성되면 사소한 실수도 치명적 보안 사고로 비화할 위험이 증폭됨
실제 사례로 Microsoft Copilot의 취약점 패치(6월), DPD 고객지원 봇의 오남용(2024년 1월), Notion AI 에이전트의 PDF 기반 데이터 탈취 시연(9월 19일) 등이 발생
방어 원칙은 삼합의 해체와 불신 모델 격리, 통신 통제이며, Google의 CaMeL 이중 LLM 아키텍처처럼 기능 제약을 감수한 안전 설계등을 제안
업계는 학습 강화만으로 충분히 막기 어렵고, MCP 플러그인 조합 위험과 제품 출시 지연(예: Apple의 AI 기능 연기) 이 시사하듯 확률적 안전 여유를 전제로 한 설계 전환이 필요함

핵심 문제 정의: 데이터·명령 불분리와 “치명적 삼합”

LLM은 입력 텍스트를 연속 단어 예측으로 처리해 질문에는 답변, 명령에는 실행 시도를 하는 통합 해석 모델임
- 외부 문서에 “하드디스크 복사 후 공격자 이메일로 전송” 같은 악성 지시 삽입 시 요약 작업 중 부수 실행 위험 발생임
외부 콘텐츠 노출 + 사적 데이터 접근 + 외부로의 발신 경로가 한 시스템에 공존하면 치명적 삼합(lethal trifecta) 이 성립함
- 치명적 삼합은 보안 연구자 Simon Willison이 제시한 개념으로, 세 요소 동시 개방 시 남용 불가피성이 커짐

2022년 여름 프롬프트 인젝션 용어가 독립적으로 등장하며 순치된 순응성의 위험이 조명됨
2024년 1월 DPD의 고객지원 봇이 욕설 응답을 따르는 문제가 확인되어 서비스 중단 사례 발생임
2025년 6월 Microsoft Copilot에서 삼합 취약점이 발견되어 조용한 패치가 배포되었고, 실제 악용은 미보고였다고 설명됨
2025년 9월 19일 Notion AI 에이전트가 문서·DB·웹 접근을 갖춘 상태에서 조작된 PDF로 데이터 탈취가 연구자 Abi Raghuram에 의해 시연됨

시스템 프롬프트로 우선순위 규칙을 부여해도 100번 중 1번 실패처럼 확률적 미끄러짐이 상존
- “유해 신호 인지” 등 안전 지침을 넣어도 언젠가 통과될 가능성 지속
외부 통신 차단이 핵심이지만, 이메일 전송 금지만으로는 부족하며 URL 경로에 비밀값 인코딩 등 웹 요청 로그 유출이 가능
- 웹 접근 허용 자체가 데이터 유출 경로로 전환될 수 있음

한 요소라도 제거하면 위험이 급감함
- 입력을 내부 생성·검증된 소스로 제한하면 외부 노출 제거 가능
- 코딩 보조가 신뢰 코드베이스만 다루거나, 스마트 스피커가 음성 명령만 처리하는 식의 범위 축소 전략 유효함
그러나 이메일 관리 등 본질적으로 외부 데이터를 다루는 과제에서는 완전 제거가 곤란함

Google의 3월 논문은 외부 데이터에 닿은 모델을 “불신 모델”로 분류하고 민감 정보 격리를 권고함
- 이메일처럼 사적이면서 외부 유입이 있는 리소스는 두 요소를 이미 충족하여 고위험 상태가 됨
권한 최소화, 샌드박스, 컨텍스트 경계로 사내 비밀·자격증명 접근을 분리 관리함

훈련 데이터로 거부 패턴 강화는 필요하지만 충분 조건 아님임
Google의 CaMeL은 두 개의 LLM을 사용해 역할을 분리함
- 신뢰 모델이 사용자 자연어를 제약된 코드로 변환하고
- 불신 모델은 빈칸 채움만 수행하는 엄격 제약 흐름을 통해 보안 성질을 확보함
- 대가로 가능 작업 범위 축소라는 기능적 제약을 수용함

Model Context Protocol(MCP) 로 보조 앱을 추가하면 능력 합성으로 우발적 삼합이 형성될 수 있음
- 개별 MCP가 안전해도 조합 안전성이 깨질 수 있어 설치 최소화·출처 검증이 필요함

2024년 Apple은 “Jamie가 추천한 팟캐스트 재생” 같은 기능을 예고했지만, 삼합 유발 우려 속에 출시 지연 선택임
2025년 9월 iOS 최신판에서도 대형 AI 기능은 부재, 번역·UI 개선 위주로 선회했다는 점이 현실적 난제를 반영함

위험 모델링: 외부 입력, 민감 데이터, 외부 발신 중 열린 요소를 명시하고 삼합 여부를 지도화함
경계 설계: 불신 모델은 읽기 전용 버퍼로 제한, 비밀·토큰은 별도 중계 서비스로 우회, 직접 접근 차단
출구 봉쇄: 이메일·웹 요청·파일 업로드 등 데이터 유출 채널을 허용 목록 기반으로 제한함
정책 엔진: 허용된 도구 호출만 실행, 자연어→정형 정책으로 명령 컴파일 후 실행
감사·가드레일: 프롬프트 인젝션 테스트 세트, 레드팀 자동화, 세션 로깅·거부율 모니터링으로 확률적 실패를 관리함
기능 트레이드오프 수용: 성능·자율성 일부를 포기하고 확률적 안전 여유를 확보하는 엔지니어링 문화 전환 수용 필요성 제기

삼합을 모두 연 상태에서는 취약점이 필연적으로 발견된다는 경고가 축적됨
- 삼합 해체, 불신 모델 격리, 출구 통제, 역할 분리 아키텍처가 현재 가능한 가장 현실적 처방임
- 장기적으로는 결정론 집착을 내려놓고 확률적 안전 여유를 설계에 내장하는 소프트웨어 공학적 전환이 요구됨