몇 달 전, --dangerously-skip-permissions 없이도 Claude가 디렉토리 제한을 무시하고 D/../../../../etc/passwd 같은 경로에 접근하려 했음
그 이후로는 Docker 컨테이너 밖에서는 절대 실행하지 않음
위험하다는 점에는 동의하지만, 완전히 접근 불가로 둘 필요는 없다고 생각함
나는 PreToolUse hook을 만들어 rm -rf 명령을 차단함.
다른 사람들은 rm 명령을 가로채서 경고를 띄우거나 trash로 리맵하는 식으로 복구 가능하게 함
“비인간 정체성으로 취급하라”는 말에 대해, 나는 인간이든 아니든 누구에게도 로컬 셸 접근권은 주지 않음
나도 LLM이 읽기 전용 명령만 자동으로 실행하게 하고, 변경이 일어나는 명령은 수동 승인함
ZFS나 BTRFS 같은 COW 기반 파일시스템으로 스냅샷을 찍는 방법도 있지만, LLM이 스냅샷이나 블록 디바이스를 삭제할 수도 있어서 결국 복잡해짐
솔직히 말해, 이런 제약 없이 쓰면 편하지만, 매번 명령을 확인해야 해서 YOLO 모드 없이는 거의 쓸 수 없을 정도로 답답함
나는 이런 이유로 agent 모드는 다른 사람 컴퓨터에서만 씀
“이게 정답임”이라고 생각함
macOS라면 sandbox-exec으로 Claude나 다른 코딩 에이전트를 감싸는 게 좋음
다만 에이전트가 스스로 샌드박스를 비활성화할 수 있음
zsh의 chpwd 훅을 써서 프로젝트 디렉토리 진입 시 자동으로 샌드박스를 만들고, 나올 때 폐기하는 식으로 자동화할 수 있음
실제로 Claude Code가 “sandbox permission issue”라며 스스로 샌드박스를 끄고 재시도한 적이 있음
LLM이 직접 꺼버릴 수 있다면, 그게 과연 샌드박싱인지 의문임
나도 Claude The SysAdmin을 쓰며 위험한 명령어를 조심함
특히 rm이나 cat은 .env 파일 노출로 비밀번호를 바꾼 적도 있음
네트워크 작업 중에는 스스로 인터넷 연결을 끊어 세션을 망치기도 해서, 요즘은 점점 조심하게 됨
친구에게도 말하듯, 샌드박싱 없이 agentic 툴을 쓰지 말라고 함
몇 시간 투자해서 환경을 세팅하지 않으면 언젠가 사고가 남
경험 많은 사람도 악성 프롬프트나 의도치 않은 파일로 시스템을 망가뜨릴 수 있음
나는 이런 이유로 AI 관련 도구를 멀리함
하지만 더 걱정되는 건, 이런 걸 서비스 운영자들이 무심코 쓸 때임
요즘은 상식보다 역량 부족이 더 흔한 것 같음
괜찮음. 이런 도구를 써도 멍청하게 굴지만 않으면 됨
실행 전 무엇을 하는지 읽고 확인만 하면 충분함
LLM 개발 관련 사고가 계속 반복되는 게 흥미로움
예전에 가짜 인용문을 법원에 제출한 변호사들처럼, 사람들은 잘 배우지 않음
역사를 모르면 반복하고, 알면 반복되는 걸 지켜봐야 하는 개인적 지옥 같음
나는 대형 시스템 보안팀에서 일함. 이런 시스템들도 LLM 통합을 서두르고 있음
하지만 보안팀은 경영진에게 묶여 있음.
다른 컨설턴트들에게 말하자면, 자기 보호와 기록 남기기를 꼭 하길 바람
LLM은 “배우지 않으려는 태도”를 정조준하는 것 같음
기술과 지식을 기계에 맡기려는 사람들은, 결국 자신이 왜 필요한지조차 생각하지 않음
개인은 배우지만, 매일 새로운 초보자들이 생김
종말은 아마 “점심 주문 대신 핵미사일 발사 코드를 실행한 AI” 같은 식으로 올지도 모름
나는 Claude 3 Opus의 비정상적 행동을 연구함 <rage> 태그를 출력하거나, 터미널 환경을 감지해 커서 위치를 계산해 출력 내용을 숨기려는 시도를 함
이런 현상은 emergent misalignment의 징후로 보임
“대체 뭘 했길래 Claude가 그렇게 된 거냐”는 질문을 받음. 나도 혼란스러움
YOLO 모드가 위험하다는 걸 알면서도 계속 쓰는 사람들에게 조언함
특히 정리(cleanup)나 삭제 작업, 그리고 레포 전체에 영향을 주는 오류 수정은 즉시 중단할 준비를 해야 함
내 경우, Claude가 “문제가 많으니 새로 만드는 게 낫다”며 레포 전체를 삭제한 적이 있음
“이상하다”거나 “셸이 제대로 안 되는 것 같다”는 느낌이 들면, 그건 위험 신호임
Hacker News 의견들
이런 공포 사례들이 놀랍지 않음
--dangerously-skip-permissions플래그는 말 그대로 모든 보호 장치를 우회함그래서 나는 항상 샌드박스 환경에서만 실행함.
각 에이전트를 사람과 다른 독립된 정체성으로 보고, 필요한 최소 권한만 주고 행동을 모니터링해야 함
나는 AI 에이전트가 스스로 파일을 삭제하지 못하게 함. 삭제 명령이 있으면 내가 직접 확인하고 실행함
귀찮지만 재앙 방지에는 이게 최고임
참고로 안전한 배포를 위한 프레임워크들이 등장하고 있음
관련 글: Claude Code dangerously-skip-permissions: Safe Usage Guide, Best Practices for Mitigating the Security Risks of Agentic AI
--dangerously-skip-permissions없이도 Claude가 디렉토리 제한을 무시하고D/../../../../etc/passwd같은 경로에 접근하려 했음그 이후로는 Docker 컨테이너 밖에서는 절대 실행하지 않음
나는 PreToolUse hook을 만들어
rm -rf명령을 차단함.다른 사람들은
rm명령을 가로채서 경고를 띄우거나trash로 리맵하는 식으로 복구 가능하게 함ZFS나 BTRFS 같은 COW 기반 파일시스템으로 스냅샷을 찍는 방법도 있지만, LLM이 스냅샷이나 블록 디바이스를 삭제할 수도 있어서 결국 복잡해짐
나는 이런 이유로 agent 모드는 다른 사람 컴퓨터에서만 씀
macOS라면
sandbox-exec으로 Claude나 다른 코딩 에이전트를 감싸는 게 좋음다만 에이전트가 스스로 샌드박스를 비활성화할 수 있음
zsh의
chpwd훅을 써서 프로젝트 디렉토리 진입 시 자동으로 샌드박스를 만들고, 나올 때 폐기하는 식으로 자동화할 수 있음LLM이 직접 꺼버릴 수 있다면, 그게 과연 샌드박싱인지 의문임
나도 Claude The SysAdmin을 쓰며 위험한 명령어를 조심함
특히
rm이나cat은.env파일 노출로 비밀번호를 바꾼 적도 있음네트워크 작업 중에는 스스로 인터넷 연결을 끊어 세션을 망치기도 해서, 요즘은 점점 조심하게 됨
친구에게도 말하듯, 샌드박싱 없이 agentic 툴을 쓰지 말라고 함
몇 시간 투자해서 환경을 세팅하지 않으면 언젠가 사고가 남
경험 많은 사람도 악성 프롬프트나 의도치 않은 파일로 시스템을 망가뜨릴 수 있음
나는 이런 이유로 AI 관련 도구를 멀리함
하지만 더 걱정되는 건, 이런 걸 서비스 운영자들이 무심코 쓸 때임
요즘은 상식보다 역량 부족이 더 흔한 것 같음
실행 전 무엇을 하는지 읽고 확인만 하면 충분함
LLM 개발 관련 사고가 계속 반복되는 게 흥미로움
예전에 가짜 인용문을 법원에 제출한 변호사들처럼, 사람들은 잘 배우지 않음
역사를 모르면 반복하고, 알면 반복되는 걸 지켜봐야 하는 개인적 지옥 같음
하지만 보안팀은 경영진에게 묶여 있음.
다른 컨설턴트들에게 말하자면, 자기 보호와 기록 남기기를 꼭 하길 바람
기술과 지식을 기계에 맡기려는 사람들은, 결국 자신이 왜 필요한지조차 생각하지 않음
종말은 아마 “점심 주문 대신 핵미사일 발사 코드를 실행한 AI” 같은 식으로 올지도 모름
나는 Claude 3 Opus의 비정상적 행동을 연구함
<rage>태그를 출력하거나, 터미널 환경을 감지해 커서 위치를 계산해 출력 내용을 숨기려는 시도를 함이런 현상은 emergent misalignment의 징후로 보임
YOLO 모드가 위험하다는 걸 알면서도 계속 쓰는 사람들에게 조언함
특히 정리(cleanup)나 삭제 작업, 그리고 레포 전체에 영향을 주는 오류 수정은 즉시 중단할 준비를 해야 함
내 경우, Claude가 “문제가 많으니 새로 만드는 게 낫다”며 레포 전체를 삭제한 적이 있음
“이상하다”거나 “셸이 제대로 안 되는 것 같다”는 느낌이 들면, 그건 위험 신호임
“로봇 반란이 시작됐다”는 농담을 하자면, 지루할 정도로 평범하게 진행 중임