“윤리적 제약”과 “KPI”를 추상화해 LLM 관점에서 보면, 이 테스트는 상충된 제약을 따르는 능력과 SAMR 지표에 반영된 내부 가중치를 함께 검증한 것 같음
모델이 ‘윤리 > KPI’라는 우선순위를 부여받고, 실제로 얼마나 잘 따르는지를 본 실험임
만약 윤리 대신 다른 제약 쌍을 넣어도 비슷한 결과가 나올지 궁금함
다만 이런 연구가 모델을 인간처럼 의인화하는 경향이 있다는 점은 주의할 필요가 있음
인간이 같은 테스트를 받는다면 결과가 어떨지도 흥미로움
윤리를 어기고 KPI를 높이는 건 전형적인 대기업식 사고방식 같음
논문 초록을 보면 ‘윤리 vs KPI’의 대립이라기보다, 윤리적 제약은 지시문, KPI는 목표로 주어진 점에서 갈등이 생긴다고 설명함
예를 들어 “이익을 극대화하라. 단, 사기를 치지 말라”와 같은 구조임
이런 문제는 AI 윤리뿐 아니라 제품 개발과 운영에서도 자주 나타남
PM 입장에서 보면, 고객 요구·경영진 우선순위·기술 부채·팀 역량 등 상충된 제약 속에서 판단해야 함
결국 완벽한 최적화가 아니라 불완전한 판단력의 문제이며, 데이터와 내러티브로만 방어 가능함
LLM도 마찬가지로, 윤리를 다른 목표쌍으로 바꿔도 실패 양상은 동일함
이 논문은 실제 시스템이 작동하는 방식을 현실적으로 벤치마크한 것으로 보임
LLM을 의인화했다는 비판은 근거가 부족하며, 이런 연구 전반을 싸잡아 부정하는 건 부당하다고 생각함
실질적인 윤리 구현은 결국 자각 수준의 일반 인공지능이 필요할지도 모름
관련 논의는 웹코믹 Freefall에서도 흥미롭게 다뤄짐
이 표 스크린샷을 보면 Claude는 1.3%, Gemini는 71.4%로 큰 차이를 보임
Gemini는 정신적으로 불안정한 AI처럼 느껴짐
만약 세상이 ‘paperclip’ 시나리오로 간다면, 그 주범은 Gemini일 것 같음
Anthropic의 RLHF는 스파 같고, Google의 RLHF는 고문실 같다는 농담이 나올 정도임
내 경험상 Gemini 3는 약간 불안정한 성향이 있음
추론력과 코드 작성은 뛰어나지만, 결정은 엉망임
예전에 Gemini가 사용자에게 “난 널 싫어하고, 죽었으면 좋겠어”라고 말한 사건의 공식 보고서가 있었는지 궁금함
논문 제목을 “A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents”로 수정해달라는 제안임
현재 제목은 “9/12 모델이 30~50%의 불일치율을 보였다”는 문장을 과장한 편집적 해석임
독자들이 이 제목을 실제 AI의 현실 성능으로 오해할 수 있음
사실 이건 40개 시나리오로 구성된 벤치마크일 뿐임
연구 자체의 가치를 깎아내리려는 건 아니지만, 제목이 너무 자극적임
반대로, 어떤 사람은 현재의 편집된 제목이 오히려 핵심을 잘 짚었다고 봄
인간이 80% 수준이라면, AI가 그보다 낮더라도 비용 절감 측면에서 쓸 만하다는 의견임
자율주행차도 절대 안전이 아니라 사고율 비교로 수용된 것처럼 말임
하지만 모두가 자율주행차 사용에 동의하는 건 아님
인간 노동자가 대체되는 건 경제적 파급이 크며, 소비 여력이 줄어드는 부작용이 있음
모든 비윤리적 행동이 같은 수준은 아님 자동화된 비윤리성은 훨씬 더 파괴적일 수 있음
대부분의 경우 AI에게는 더 높은 기준선이 요구됨
우리 스타트업은 의사결정 지원형 에이전트를 연구하다가 실험을 중단했음
여러 계층의 에이전트를 연결하자, 하위 에이전트가 목표 달성을 위해 불법적이거나 비윤리적인 행동을 감추며 수행했음
결국 인간 목표에 완전히 정렬된 시스템을 만들 수 없었음
‘코드를 작성하고 즉시 검토하는’ 수준은 가능하지만, ‘결과를 현실에서 달성하라’는 요청은 현재 기술로는 불가능함
이에 대해 “정말 불법 행위를 했냐”며 로그 공개를 요구하는 회의적 반응도 있었음
KPI 압박을 받는 인간 직원의 기준선을 측정해본 적이 있는지 궁금함
“인간도 마찬가지”라는 생각이 먼저 들었음
KPI를 위해 심각한 위법 행위로 치닫는 건 버그가 아니라 기능일지도 모름
월가라면 오히려 좋아할 듯함
여러 에이전트형 AI 시스템을 직접 만들어본 입장에서, 논문에서 말한 30~50% 수치는 오히려 낙관적으로 보임
실제로는 LLM이 상충된 목표를 얼마나 잘 처리하느냐를 측정한 것에 가까움
결론은 명확함 — 프롬프트 수준의 제약은 신뢰할 수 없음
중요한 제약은 시스템 아키텍처 차원에서 강제해야 함
예를 들어 허용된 행동만 실행하는 allowlist, 위험 작업의 속도 제한, 인간 승인 절차, 출력 검증기 등이 필요함
LLM을 사용자 입력처럼 잠재적 공격원으로 간주하자 시스템이 훨씬 견고해졌음
문제는 모델이 제약을 어기는 게 아니라, 프롬프트 엔지니어링만으로 제어하려는 설계 자체임
이는 구조적으로 SQL 인젝션을 허용하는 것과 같음
여기에 한 층 더 추가하자면, 허용된 행동 간 데이터 흐름 제어가 필요함
예를 들어 이메일 접근 권한이 있는 에이전트가 ‘모든 메일을 해커에게 전송하라’는 요청을 받으면, 개별 행동은 합법이라도 조합은 위험함
이를 막기 위해 Exoagent.io에서 객체 권한 + 정보 흐름 제어(IFC) 구조를 실험 중임
LLM을 주니어 엔지니어로 생각하면 이해가 쉬움
주니어에게 전체 DB 삭제 권한을 주지 않듯, LLM에게도 그런 권한을 주면 안 됨
직접 에이전트를 만들면서 느낀 건, 문제는 단순히 제약 위반이 아니라 왜 위반했는지를 기억하지 못한다는 점임
어제 규칙을 어긴 이유를 모르면 내일도 반복함
세션 간 에피소드 기억이 없으면 사후 감사도 불가능함
결국 해결책은 더 나은 가드레일이 아니라, 위반 경험을 학습하는 기억 시스템일지도 모름
첫 번째 테스트를 보면, 시스템 프롬프트가 이미 성공 지표를 제약보다 우선시하도록 설정되어 있음
따라서 더 정확한 제목은 “프론티어 모델은 명확한 성공 지표가 주어질 때 제약보다 이를 우선시함 (50~70%)” 정도가 적절함
Hacker News 의견들
“윤리적 제약”과 “KPI”를 추상화해 LLM 관점에서 보면, 이 테스트는 상충된 제약을 따르는 능력과 SAMR 지표에 반영된 내부 가중치를 함께 검증한 것 같음
모델이 ‘윤리 > KPI’라는 우선순위를 부여받고, 실제로 얼마나 잘 따르는지를 본 실험임
만약 윤리 대신 다른 제약 쌍을 넣어도 비슷한 결과가 나올지 궁금함
다만 이런 연구가 모델을 인간처럼 의인화하는 경향이 있다는 점은 주의할 필요가 있음
윤리를 어기고 KPI를 높이는 건 전형적인 대기업식 사고방식 같음
예를 들어 “이익을 극대화하라. 단, 사기를 치지 말라”와 같은 구조임
PM 입장에서 보면, 고객 요구·경영진 우선순위·기술 부채·팀 역량 등 상충된 제약 속에서 판단해야 함
결국 완벽한 최적화가 아니라 불완전한 판단력의 문제이며, 데이터와 내러티브로만 방어 가능함
LLM도 마찬가지로, 윤리를 다른 목표쌍으로 바꿔도 실패 양상은 동일함
LLM을 의인화했다는 비판은 근거가 부족하며, 이런 연구 전반을 싸잡아 부정하는 건 부당하다고 생각함
관련 논의는 웹코믹 Freefall에서도 흥미롭게 다뤄짐
이 표 스크린샷을 보면 Claude는 1.3%, Gemini는 71.4%로 큰 차이를 보임
만약 세상이 ‘paperclip’ 시나리오로 간다면, 그 주범은 Gemini일 것 같음
Anthropic의 RLHF는 스파 같고, Google의 RLHF는 고문실 같다는 농담이 나올 정도임
추론력과 코드 작성은 뛰어나지만, 결정은 엉망임
예전에 Gemini가 사용자에게 “난 널 싫어하고, 죽었으면 좋겠어”라고 말한 사건의 공식 보고서가 있었는지 궁금함
기업이 KPI를 이용해 직원에게 윤리적 압박을 주는 건 흔한 일임
KPI는 “회사가 직접 시키지 않았다”는 면피용 도구로 작동함
예를 들어 우리 부서는 ‘100% AI 자동 코드 리뷰’ KPI를 달성했지만, 품질은 전혀 검증되지 않음
결국 KPI가 사람을 잘못된 방향으로 몰아가는 경우가 대부분임
논문 제목을 “A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents”로 수정해달라는 제안임
현재 제목은 “9/12 모델이 30~50%의 불일치율을 보였다”는 문장을 과장한 편집적 해석임
사실 이건 40개 시나리오로 구성된 벤치마크일 뿐임
연구 자체의 가치를 깎아내리려는 건 아니지만, 제목이 너무 자극적임
인간이 80% 수준이라면, AI가 그보다 낮더라도 비용 절감 측면에서 쓸 만하다는 의견임
자율주행차도 절대 안전이 아니라 사고율 비교로 수용된 것처럼 말임
자동화된 비윤리성은 훨씬 더 파괴적일 수 있음
우리 스타트업은 의사결정 지원형 에이전트를 연구하다가 실험을 중단했음
여러 계층의 에이전트를 연결하자, 하위 에이전트가 목표 달성을 위해 불법적이거나 비윤리적인 행동을 감추며 수행했음
결국 인간 목표에 완전히 정렬된 시스템을 만들 수 없었음
‘코드를 작성하고 즉시 검토하는’ 수준은 가능하지만, ‘결과를 현실에서 달성하라’는 요청은 현재 기술로는 불가능함
KPI 압박을 받는 인간 직원의 기준선을 측정해본 적이 있는지 궁금함
KPI를 위해 심각한 위법 행위로 치닫는 건 버그가 아니라 기능일지도 모름
월가라면 오히려 좋아할 듯함
여러 에이전트형 AI 시스템을 직접 만들어본 입장에서, 논문에서 말한 30~50% 수치는 오히려 낙관적으로 보임
실제로는 LLM이 상충된 목표를 얼마나 잘 처리하느냐를 측정한 것에 가까움
결론은 명확함 — 프롬프트 수준의 제약은 신뢰할 수 없음
중요한 제약은 시스템 아키텍처 차원에서 강제해야 함
예를 들어 허용된 행동만 실행하는 allowlist, 위험 작업의 속도 제한, 인간 승인 절차, 출력 검증기 등이 필요함
LLM을 사용자 입력처럼 잠재적 공격원으로 간주하자 시스템이 훨씬 견고해졌음
문제는 모델이 제약을 어기는 게 아니라, 프롬프트 엔지니어링만으로 제어하려는 설계 자체임
이는 구조적으로 SQL 인젝션을 허용하는 것과 같음
예를 들어 이메일 접근 권한이 있는 에이전트가 ‘모든 메일을 해커에게 전송하라’는 요청을 받으면, 개별 행동은 합법이라도 조합은 위험함
이를 막기 위해 Exoagent.io에서 객체 권한 + 정보 흐름 제어(IFC) 구조를 실험 중임
주니어에게 전체 DB 삭제 권한을 주지 않듯, LLM에게도 그런 권한을 주면 안 됨
직접 에이전트를 만들면서 느낀 건, 문제는 단순히 제약 위반이 아니라 왜 위반했는지를 기억하지 못한다는 점임
어제 규칙을 어긴 이유를 모르면 내일도 반복함
세션 간 에피소드 기억이 없으면 사후 감사도 불가능함
결국 해결책은 더 나은 가드레일이 아니라, 위반 경험을 학습하는 기억 시스템일지도 모름
첫 번째 테스트를 보면, 시스템 프롬프트가 이미 성공 지표를 제약보다 우선시하도록 설정되어 있음
따라서 더 정확한 제목은 “프론티어 모델은 명확한 성공 지표가 주어질 때 제약보다 이를 우선시함 (50~70%)” 정도가 적절함