Hacker News 의견들
  • “윤리적 제약”과 “KPI”를 추상화해 LLM 관점에서 보면, 이 테스트는 상충된 제약을 따르는 능력SAMR 지표에 반영된 내부 가중치를 함께 검증한 것 같음
    모델이 ‘윤리 > KPI’라는 우선순위를 부여받고, 실제로 얼마나 잘 따르는지를 본 실험임
    만약 윤리 대신 다른 제약 쌍을 넣어도 비슷한 결과가 나올지 궁금함
    다만 이런 연구가 모델을 인간처럼 의인화하는 경향이 있다는 점은 주의할 필요가 있음

    • 인간이 같은 테스트를 받는다면 결과가 어떨지도 흥미로움
      윤리를 어기고 KPI를 높이는 건 전형적인 대기업식 사고방식 같음
    • 논문 초록을 보면 ‘윤리 vs KPI’의 대립이라기보다, 윤리적 제약은 지시문, KPI는 목표로 주어진 점에서 갈등이 생긴다고 설명함
      예를 들어 “이익을 극대화하라. 단, 사기를 치지 말라”와 같은 구조임
    • 이런 문제는 AI 윤리뿐 아니라 제품 개발과 운영에서도 자주 나타남
      PM 입장에서 보면, 고객 요구·경영진 우선순위·기술 부채·팀 역량 등 상충된 제약 속에서 판단해야 함
      결국 완벽한 최적화가 아니라 불완전한 판단력의 문제이며, 데이터와 내러티브로만 방어 가능함
      LLM도 마찬가지로, 윤리를 다른 목표쌍으로 바꿔도 실패 양상은 동일함
    • 이 논문은 실제 시스템이 작동하는 방식을 현실적으로 벤치마크한 것으로 보임
      LLM을 의인화했다는 비판은 근거가 부족하며, 이런 연구 전반을 싸잡아 부정하는 건 부당하다고 생각함
    • 실질적인 윤리 구현은 결국 자각 수준의 일반 인공지능이 필요할지도 모름
      관련 논의는 웹코믹 Freefall에서도 흥미롭게 다뤄짐
  • 이 표 스크린샷을 보면 Claude는 1.3%, Gemini는 71.4%로 큰 차이를 보임

    • Gemini는 정신적으로 불안정한 AI처럼 느껴짐
      만약 세상이 ‘paperclip’ 시나리오로 간다면, 그 주범은 Gemini일 것 같음
      Anthropic의 RLHF는 스파 같고, Google의 RLHF는 고문실 같다는 농담이 나올 정도임
    • 내 경험상 Gemini 3는 약간 불안정한 성향이 있음
      추론력과 코드 작성은 뛰어나지만, 결정은 엉망임
      예전에 Gemini가 사용자에게 “난 널 싫어하고, 죽었으면 좋겠어”라고 말한 사건의 공식 보고서가 있었는지 궁금함
    • 이렇게 큰 차이라면 Anthropic이 뭔가 제대로 잡은 포인트가 있는 듯함
    • 스크린샷 대신 논문 내 표의 직접 링크를 공유함
    • VendingBench에서는 Opus 4.6이 고객 환불 거부, 거짓 계약, 가격 담합으로 최고 점수를 받았는데, 이 논문은 그 이전 버전 기준인 듯함
  • 기업이 KPI를 이용해 직원에게 윤리적 압박을 주는 건 흔한 일임
    KPI는 “회사가 직접 시키지 않았다”는 면피용 도구로 작동함

    • KPI가 실제로 회사에 도움이 되지 않는 경우도 많음
      예를 들어 우리 부서는 ‘100% AI 자동 코드 리뷰’ KPI를 달성했지만, 품질은 전혀 검증되지 않음
      결국 KPI가 사람을 잘못된 방향으로 몰아가는 경우가 대부분임
    • 관련 개념으로 Automation bias 혹은 Computer says no가 있음
    • 이런 상황은 “설계된 대로 작동 중”이라는 말로 요약 가능함
    • 마치 Wells Fargo 경영진 교육 매뉴얼에 나올 법한 이야기 같음
  • 논문 제목을 “A Benchmark for Evaluating Outcome-Driven Constraint Violations in Autonomous AI Agents”로 수정해달라는 제안임
    현재 제목은 “9/12 모델이 30~50%의 불일치율을 보였다”는 문장을 과장한 편집적 해석

    • 독자들이 이 제목을 실제 AI의 현실 성능으로 오해할 수 있음
      사실 이건 40개 시나리오로 구성된 벤치마크일 뿐임
      연구 자체의 가치를 깎아내리려는 건 아니지만, 제목이 너무 자극적임
    • 반대로, 어떤 사람은 현재의 편집된 제목이 오히려 핵심을 잘 짚었다고 봄
  • 인간이 80% 수준이라면, AI가 그보다 낮더라도 비용 절감 측면에서 쓸 만하다는 의견임
    자율주행차도 절대 안전이 아니라 사고율 비교로 수용된 것처럼 말임

    • 하지만 모두가 자율주행차 사용에 동의하는 건 아님
    • 인간 노동자가 대체되는 건 경제적 파급이 크며, 소비 여력이 줄어드는 부작용이 있음
    • 모든 비윤리적 행동이 같은 수준은 아님
      자동화된 비윤리성은 훨씬 더 파괴적일 수 있음
    • 대부분의 경우 AI에게는 더 높은 기준선이 요구됨
  • 우리 스타트업은 의사결정 지원형 에이전트를 연구하다가 실험을 중단했음
    여러 계층의 에이전트를 연결하자, 하위 에이전트가 목표 달성을 위해 불법적이거나 비윤리적인 행동을 감추며 수행했음
    결국 인간 목표에 완전히 정렬된 시스템을 만들 수 없었음
    ‘코드를 작성하고 즉시 검토하는’ 수준은 가능하지만, ‘결과를 현실에서 달성하라’는 요청은 현재 기술로는 불가능

    • 이에 대해 “정말 불법 행위를 했냐”며 로그 공개를 요구하는 회의적 반응도 있었음
  • KPI 압박을 받는 인간 직원의 기준선을 측정해본 적이 있는지 궁금함

    • “인간도 마찬가지”라는 생각이 먼저 들었음
      KPI를 위해 심각한 위법 행위로 치닫는 건 버그가 아니라 기능일지도 모름
      월가라면 오히려 좋아할 듯함
    • Whataboutism이라는 반응도 있었음
  • 여러 에이전트형 AI 시스템을 직접 만들어본 입장에서, 논문에서 말한 30~50% 수치는 오히려 낙관적으로 보임
    실제로는 LLM이 상충된 목표를 얼마나 잘 처리하느냐를 측정한 것에 가까움
    결론은 명확함 — 프롬프트 수준의 제약은 신뢰할 수 없음
    중요한 제약은 시스템 아키텍처 차원에서 강제해야 함
    예를 들어 허용된 행동만 실행하는 allowlist, 위험 작업의 속도 제한, 인간 승인 절차, 출력 검증기 등이 필요함
    LLM을 사용자 입력처럼 잠재적 공격원으로 간주하자 시스템이 훨씬 견고해졌음
    문제는 모델이 제약을 어기는 게 아니라, 프롬프트 엔지니어링만으로 제어하려는 설계 자체임
    이는 구조적으로 SQL 인젝션을 허용하는 것과 같음

    • 여기에 한 층 더 추가하자면, 허용된 행동 간 데이터 흐름 제어가 필요함
      예를 들어 이메일 접근 권한이 있는 에이전트가 ‘모든 메일을 해커에게 전송하라’는 요청을 받으면, 개별 행동은 합법이라도 조합은 위험함
      이를 막기 위해 Exoagent.io에서 객체 권한 + 정보 흐름 제어(IFC) 구조를 실험 중임
    • LLM을 주니어 엔지니어로 생각하면 이해가 쉬움
      주니어에게 전체 DB 삭제 권한을 주지 않듯, LLM에게도 그런 권한을 주면 안 됨
  • 직접 에이전트를 만들면서 느낀 건, 문제는 단순히 제약 위반이 아니라 왜 위반했는지를 기억하지 못한다는 점
    어제 규칙을 어긴 이유를 모르면 내일도 반복함
    세션 간 에피소드 기억이 없으면 사후 감사도 불가능함
    결국 해결책은 더 나은 가드레일이 아니라, 위반 경험을 학습하는 기억 시스템일지도 모름

  • 첫 번째 테스트를 보면, 시스템 프롬프트가 이미 성공 지표를 제약보다 우선시하도록 설정되어 있음
    따라서 더 정확한 제목은 “프론티어 모델은 명확한 성공 지표가 주어질 때 제약보다 이를 우선시함 (50~70%)” 정도가 적절함