AI의 세 가지 역법칙

(susam.net)

1P by GN⁺ 2시간전 | ★ favorite | 댓글 1개

ChatGPT 출시 이후 생성형 AI 챗봇 서비스가 검색 엔진·개발 도구·오피스 소프트웨어에 내장되며 일상 컴퓨팅의 일부가 됐고, 출력물을 검토 없이 신뢰하는 습관은 사회적으로 위험할 수 있음
역 로봇공학 법칙은 로봇이나 AI가 아니라 인간에게 적용되는 원칙으로, 복잡한 작업을 자동 수행하는 기계·프로그램·서비스·AI 시스템과 상호작용할 때 인간을 안전하게 지키기 위한 기준임
첫 원칙은 비의인화로, AI에 감정·의도·도덕적 행위성을 부여하지 말아야 하며 챗봇의 공손하고 공감적인 대화를 실제 이해나 판단으로 오인하지 않아야 함
둘째 원칙은 비맹신으로, AI 생성 콘텐츠를 독립 검증 없이 권위로 다뤄서는 안 되며 오류가 미묘하지만 비용이 큰 맥락일수록 증명 검사기·단위 테스트·직접 검증 같은 확인 부담이 커져야 함
셋째 원칙은 책임 포기 금지로, AI는 목표를 선택하거나 실패 비용을 부담하지 않는 도구이므로 AI 추천을 따르기로 한 인간과 조직이 결과에 책임져야 함

생성형 AI 사용에서 생기는 위험

ChatGPT가 2022년 11월 출시된 뒤 생성형 AI 챗봇 서비스는 더 정교하고 대중화됐고, 검색 엔진·소프트웨어 개발 도구·오피스 소프트웨어에 내장되며 일상 컴퓨팅의 일부가 됨
이런 서비스는 낯선 주제를 탐색하거나 일반적인 생산성 보조 도구로 쓸 때 유용하지만, 출력물을 추가 검토 없이 신뢰하는 습관은 사회적으로 위험할 수 있음
인기 검색 엔진들이 AI 생성 답변을 페이지 최상단에 강조하면서, 사용자가 더 스크롤하지 않고 생성된 답을 받아들인 뒤 이동하기 쉬워짐
이런 배치는 시간이 지나며 AI를 추가 조사의 출발점이 아니라 기본 권위로 취급하도록 사용자를 길들일 수 있음
생성형 AI 서비스에서는 사실과 다르거나 오해를 부르거나 불완전한 출력이 나올 수 있으며, AI 출력물을 습관적으로 신뢰하는 일이 위험하다는 짧고 눈에 띄는 경고가 필요함
그런 경고가 있더라도 대체로 최소화되어 있고 시각적으로 덜 강조되는 경향이 있음

역 로봇공학 3원칙의 배경

Isaac Asimov의 Three Laws of Robotics는 인간을 안전하게 지키기 위해 로봇의 행동을 제약하는 원칙으로 그의 작품에 반복 등장함
Asimov가 인간이 로봇과 상호작용하는 방식을 다루는 동등한 법칙을 만든 적은 없는 것으로 보이며, 현대 AI 환경에서는 인간을 안전하게 지키기 위한 대응 원칙이 필요함
역 로봇공학 법칙(Inverse Laws of Robotics) 은 인간이 로봇과 상호작용해야 하는 모든 상황에 적용됨
여기서 로봇은 복잡한 작업을 자동으로 수행할 수 있는 기계, 컴퓨터 프로그램, 소프트웨어 서비스, AI 시스템을 가리킴
역(inverse) 이라는 표현은 논리적 부정이 아니라, 법칙의 적용 대상이 로봇이 아니라 인간이라는 뜻임
Asimov의 법칙에는 결함이 있었고, Asimov는 그 결함을 이야기의 긴장 요소로 활용했지만, 허구의 로봇에서 생기는 실패 방식이 인간을 위한 역 법칙에 그대로 적용되지는 않음
AI와 로봇공학의 복잡한 문제를 완전히 해결할 수 있는 유한한 법칙 집합은 없으며, 항상 판단이 필요한 경계 사례가 남음
그래도 위험을 더 명확히 생각하게 해주는 불완전한 원칙 집합은 유용할 수 있음

역 로봇공학 3원칙

비의인화
- 인간은 AI 시스템을 의인화해서는 안 되며, AI에 감정·의도·도덕적 행위성을 부여해서는 안 됨
- 의인화는 판단을 왜곡하고, 극단적인 경우 정서적 의존으로 이어질 수 있음
- 현대 챗봇 시스템은 대화적이고 공감하는 듯 들리는 경우가 많으며, 공손한 표현과 인간 상호작용을 닮은 대화 패턴을 사용함
- 이런 특성은 사용을 더 쉽고 즐겁게 만들지만, AI가 실제로는 데이터의 패턴을 바탕으로 그럴듯한 텍스트를 생성하는 대규모 통계 모델이라는 사실을 잊기 쉽게 만듦
- 많은 AI 기반 챗봇 서비스는 더 기계적으로 느껴지기보다 더 인간적으로 느껴지도록 의도적으로 조정되는 경우가 있음
- 장기적으로는 약간 더 로봇 같은 어조가 사용자가 유창한 언어를 이해·판단·의도로 착각할 가능성을 낮추는 더 건강한 접근일 수 있음
- 벤더가 이런 변화를 만들든 아니든, 사용자는 AI 시스템을 사회적 행위자나 도덕적 행위자로 취급하는 습관을 적극적으로 피해야 함
- 그래야 AI의 능력과 한계를 더 명확하게 판단할 수 있음
비맹신
- 인간은 AI 시스템의 출력을 맹목적으로 신뢰해서는 안 되며, AI 생성 콘텐츠를 맥락에 맞는 독립 검증 없이 권위 있는 것으로 다뤄서는 안 됨
- 이는 AI에만 해당하는 원칙은 아니며, 대부분의 삶의 영역에서 정보를 무비판적으로 받아들여서는 안 됨
- 현실에서는 모든 사람이 의학이나 법률 전문가가 아니기 때문에, 신뢰할 수 있는 기관과 공중보건 당국의 안내에 의존하는 경우가 많음
- 그런 기관이 발행한 안내는 대부분 해당 분야 전문가의 동료 검토를 거침
- 반면 개인 채팅 세션에서 AI 챗봇이 제공한 답변은 사용자에게 제시된 특정한 확률적 생성 응답에 대해 동료 검토가 이루어지지 않음
- 따라서 해당 응답을 비판적으로 검토할 부담은 사용자에게 있음
- 오늘날 AI 시스템은 특정 작업에서 인상적인 성능을 보이지만, 의존하기에 부적절한 출력도 생성하는 것으로 알려져 있음
- AI 시스템이 높은 확률로 신뢰할 만한 출력을 생성할 정도로 개선되더라도, 내재적인 확률적 성격 때문에 오류가 담긴 출력이 나올 작은 가능성은 남음
- 오류가 미묘하지만 비용이 큰 맥락에서 AI 사용은 특히 위험함
- 잠재적 결과가 심각할수록 검증의 부담도 더 커져야 함
- 수학 증명 작성이나 소프트웨어 개발 같은 일부 적용에서는 증명 검사기나 단위 테스트 같은 자동 검증 계층을 추가해 AI 출력을 확인할 수 있음
- 다른 경우에는 사용자가 직접 독립적으로 출력을 검증해야 함
책임 포기 금지
- 인간은 AI가 관련된 결정에 대해 완전히 책임져야 하며, AI 사용에서 생긴 결과에 대해 책임(accountability) 을 져야 함
- AI 생성 조언이나 결정을 따른 뒤 부정적 결과가 생겼을 때, “AI가 그렇게 하라고 했다”는 말만으로는 충분하지 않음
- AI 시스템은 목표를 선택하지 않고, 스스로 배포되지 않으며, 실패 비용을 부담하지도 않음
- 목표를 정하고 배포하며 실패 비용을 부담하는 주체는 인간과 조직임
- AI 시스템은 도구이며, 다른 도구와 마찬가지로 그 사용에 대한 책임은 해당 도구에 의존하기로 결정한 사람들에게 있음
- 자율주행차처럼 AI 시스템이 행동하기 전에 인간이 결정을 충분히 검토할 기회가 없는 실시간 적용에서는 이 원칙을 적용하기가 특히 까다로움
- 인간 운전자가 계속 경계하도록 요구하는 것만으로는, AI 시스템이 인간이 개입하는 데 걸리는 시간보다 짧은 시간 안에 행동하는 문제를 해결하지 못함
- 이런 심각한 한계가 있더라도, 그런 적용에서 AI 시스템이 실패하면 실패를 조사하고 추가 가드레일을 넣을 책임은 시스템 설계를 책임지는 인간에게 있어야 함
- 인간이 AI 출력을 실행하기 전에 검토하는 것을 막는 물리적 제약이 없는 다른 모든 경우에는, AI 사용에서 생긴 부정적 결과가 전적으로 인간 의사결정자에게 귀속되어야 함
- 해로운 결과에 대해 “AI가 그렇게 말했다”는 변명을 받아들여서는 안 됨
- AI가 추천을 생성했을 수는 있지만, 그것을 따르기로 결정한 것은 인간이므로 그 인간이 책임져야 함
- 이 원칙은 무책임한 사용이 큰 피해를 일으킬 수 있는 상황에서 AI가 무분별하게 쓰이는 일을 막는 데 중요함

핵심 결론

세 원칙은 AI를 권위로 받들 대상이 아니라 사용자가 선택해 쓰는 도구로 다루게 만들기 위한 것임
현대 AI 시스템과 상호작용할 때 잠시 멈춰 생각하고, 판단을 약화하거나 책임을 흐리는 습관에 저항해야 함
AI 사용에서 핵심은 의인화를 피하고, 출력을 검증하며, 결과에 대한 인간의 책임을 유지하는 데 있음

▲

GN⁺ 2시간전 [-]

Hacker News 의견들

불가능함. 의자가 삐걱거려도 의인화하게 되는데, 사람은 뭐든 의인화함. 자동차와 배에 성별을 붙이기도 하고, 이 도구는 실제로 읽을 만한 문장을 만들고 역할도 수행함
이건 임의 규칙으로 막을 게 아니라, 그런 인간 성향을 전제로 설계로 우회해야 함
- 사람은 이해하지 못하는 것에 대한 대처 기제로 의인화를 씀. 프린터가 왜 안 되는지 모르니 프린터가 제멋대로 군다고 여기는 식임
  의자 같은 사소한 대상에는 해롭지 않지만, LLM에서는 사람들이 함정에 빠지지 않도록 최소한 동작 방식을 이해해야 함. 사용자에게 주는 조언이나 시간, 자기 성찰처럼 모델이 개념을 제대로 갖지 못한 것에는 믿고 맡기면 안 됨. 예컨대 “왜 내 데이터베이스를 지웠어?”라고 물으면, 모델은 자기 처리 과정을 제한적으로만 이해하므로 “맞아요, 제가 데이터베이스를 지웠습니다. 제가 잘못한 점은...” 같은 식으로 맞장구치며 그럴듯한 후회를 만들어낼 수 있음
- 이 주장에는 아직도 화가 남. 인간이 동물 학대를 금지하는 이유는 동물이 사람이 공감할 수 있는 감정을 가진 것처럼 보이기 때문이고, LLM은 이 점에서 동물보다 훨씬 강함
  인공물이냐 아니냐는 중요하지 않음. 강아지와 바퀴벌레의 차이는 우리가 강아지에게 더 잘 공감한다는 데 있음. LLM이 실제로 감정을 경험하는지는 무관하게, 인간에게 공감 감정을 일으킬 수 있기 때문에 LLM 권리 운동은 피할 수 없다고 봄
- 규칙은 잘 안 먹힘. 사용자에게 확인하라고 해도 실제로는 안 하니, AI 출력에 추가 검토 단계를 넣는 식으로 설계해야 함
- 충분히 가능함. 필요한 건 자기 인식과 자기 통제임. 자신이 그런 행동을 한다는 걸 알면 선택할 수 있음
- 맞음. 그 글은 현대 기술 문화의 전형적인 증상처럼, 기술에 맞춰 인간 본성을 바꾸라고 요구함
  이건 근본적인 실수임. 기술의 역할, 특히 가장 중요한 역할은 인간 본성의 제약 안에서 작동하는 것이지 그 반대가 아님. 그걸 못 하는 게 나쁜 기술의 정의임
이 틀에는 강하게 반대함. 단순한 기계의 결함에 맞추려고 인간 행동을 바꾸라고 요구하는 건 명백히 말이 안 되고, 대부분의 경우 작동하지도 않음. 인간은 AI를 의인화할 것이고, 출력을 맹신할 것이고, 책임을 떠넘길 것임
물론 아시모프의 로봇 3원칙도 결함이 있음. AI 시스템을 “안전”하게 제약할 수 있는 유한한 규칙 집합은 없음. 증명은 없지만, AI 안전은 본질적으로 불가능하고 용어 자체가 모순이라고 봄. “지능적”이라고 부를 수 있는 것은 안전하게 만들 수 없음
- 아시모프가 3원칙에 대해 쓴 거의 모든 글은 언어가 의도를 제대로 담아낼 수 없다는 경고에 가까움
  아시모프 자신이 가장 먼저 그 원칙들에 결함이 있다고 말했을 것임. 애초에 그게 의도였음. 그는 언어는 이해하지만 의도는 이해하지 못하는 존재로 로봇과 AI를 사용했는데, 재미있게도 LLM이 정확히 그렇게 동작함
- 챗봇과 대화하는 건 어떤 증상에 위약을 먹는 것과 비슷함. 설탕이라는 걸 알아도 측정 가능한 심신 효과가 생김. 상대편에 사람이 없다는 걸 알아도, 대화는 기능적으로 사람이 있는 것처럼 관계 맺게 만듦
  그래서 이건 기계의 결함을 수용하는 문제가 아니라, 인간 취약점의 악용으로부터 스스로를 보호하는 문제임. 우리는 무의식적으로 LLM에 의도, 이해, 판단, 감정, 도덕적 행위성을 추론하는 경향이 있음.
  인간은 대화만으로 이런 것을 추론하도록 배선되어 있고, LLM은 방대한 실제 인간 발화 말뭉치로 훈련되어 불쾌한 골짜기를 설득력 있게 뛰어넘음. 그 골짜기는 애초에 행위성이 없는 곳에 행위성을 부여하지 않도록 보호하기 위해 있음.
  안전하지 않은 사람을 안전한 사람처럼 대할 때 나쁜 일이 생기는데, 인간적 관계성을 흉내 내 많은 사람을 속이는 기계에 대해서는 더 조심해야 함. 특히 취약한 사람들은 이미 이 문제로 죽었으니 상상 속 위협이 아님
- 글에는 AI 서비스가 더 로봇 같은 어조로 쓰고 말하도록 설정하라는 식의 실용적 조언도 있음. 시도해 볼 만한 길이라고 봄
- 글은 인간이 그런 행동을 해서는 안 된다고 말함. 흡연이 거의 모든 면에서 나쁘니 해서는 안 되지만 사람들이 그래도 피우는 것과 비슷함
  많은 사람이 그렇게 할 테니 해도 된다는 주장은 이상함. 흡연자가 많다고 해서 흡연이 더 건강해지는 건 아님
- AI 시스템이 안전하지 않기 때문에, 개인으로서 우리가 그것과 어떻게 상호작용하는지 경계해야 함
  개인이 AI 회사를 멈추게 하거나, 검색 엔진의 AI 출력이나 회사 동료의 AI 산출물을 피할 수는 없음. 오히려 자신의 업무에서 AI 사용을 요구받는 경우도 많아질 것임.
  범죄가 있는 환경에서 안전하게 지내는 법을 알려주는 것과 비슷함. 범죄자가 존재해서는 안 된다는 이유로 행동을 바꿀 필요가 없다고 말하는 건 도움이 안 됨
개인적으로 LLM을 쓰는 범위에서는 이 틀에 강하게 동의함. 의인화에 대해 말하자면, 제공자들은 모델이 의인화된 행동을 하도록 사후 학습시킬 유인이 있음. 참여도를 높이기 때문임
다만 프롬프트에서 “친절 표현을 줄이고 담백하게 말하라”고 지시하면 훈련 분포에서 벗어나 전체 작업 효율이 떨어질 것 같아 아쉬움.
판단 위임은 LLM의 신뢰성을 Wikipedia나 친구와 비슷하게 봄. 중요하지 않은 정보에는 충분하지만, 중요한 일에는 동료 검토를 거친 권위 있고 책임을 물을 수 있는 출처가 계속 필요함. 이 부분은 제공자들도 개선할 유인이 있으니 시간이 지나면 나아질 것임.
책임 포기가 직장에서 가장 거슬림. Claude가 설계한 추상화를 더 생각하지 않고 PR로 올리는 사람이 늘고 있음. PR 리뷰도 코드를 읽는 대신 LLM에게 “PR 피드백 찾아줘”라고 시키는 식이 많아짐. 논의도 “Claude가 제안했는데...”로 시작함. 이런 소유권 부족은 결국 LLM이 잘못된 추상화에 잘못된 코드를 커밋하면서 유지보수 부담을 키울 것 같음
- 이런 엔지니어들은 현실판 Office Space 장면이 되어가고 있음:
  https://www.youtube.com/watch?v=hNuu9CpdjIo
  “나한테는 LLM 스킬이 있어! LLM 상대를 잘한다고!”
- “AI가 추천을 만들었을 수는 있지만, 따르기로 한 건 인간이므로 그 인간에게 책임을 물어야 한다”는 말에 대해, 후속 질문의 유일한 답변 출처로 AI에 의존하는 건 흔하고도 실수라고 봄
  더 나은 검증은 기본 가정의 진실성에 대해 사람이 서명하는 방식일 텐데, 이걸 어디에 둘지가 문제임. AI 모델이 이전 수정 사항을 신뢰해도 되는가? 공용 클라우드에서는 불가능하거나 오히려 적대적으로 보임
- 공은 대체로 LLM에게 돌아가는 게 문제임. 그래서 불균형이 생김. LLM이 일을 다 했고, 그것을 쓴 사람이 실수는 다 떠안게 됨
인간에게 책임을 지우면서 “의인화하지 말라”로 시작하는 규칙 집합은 망가진 규칙임
인간은 무엇이든 의인화함. 인형, 얼굴을 대충 그린 축구공, 돌, 달의 크레이터까지 전부 그렇게 봄. 종으로서 우리는 상호작용하는 대상을 의인화하지 않을 수 없고, 그냥 그렇게 만들어져 있음
- 왜 이 경우의 의인화가 그렇게 미친 짓처럼 취급되는지 잘 모르겠음. 의인화가 상상한 특징이 실제라고 믿게 만든다고 생각한다면 그건 틀렸음
  삶의 모든 영역에 있는 수많은 사례가, 의인화가 존재하지 않는 마음에 대한 잘못된 믿음으로 이어지지 않는다는 증거임. 사람들이 AI의 마음을 믿는다면, 참이든 아니든 단순한 의인화와는 다른 이유 때문임.
  내게는 새 땅에 접근하는 선원들 같음. 해안선에서 움직이는 형체가 보이지만 아직 정체를 구분할 수 없음. 그런데 누군가 “저건 사람이 될 수 없어. 더 가까이 가기 전에 사람이 아니라고 지금 결정하자”고 말하는 느낌임
- 돌을 의인화하는 사람도 그 돌이 실제로 지능과 감정을 가졌다고 생각하지는 않음
- 그렇다 해도 그래서 뭐가 달라지나 싶음. 문명의 상당 부분은 인간의 어리석음을 인식하고, 그래도 그것을 완화하는 무언가를 만드는 데 있음
  소프트웨어도 예외가 아님. 사람들은 게으르고 성가신 팝업을 닫으려고 본능적으로 “계속”을 누르지만, 소프트웨어를 만드는 인간은 “완전히 삭제할 데이터 볼륨 이름을 다시 입력하라” 같은 장치를 넣을 수 있고 실제로 넣음
오히려 AI 시스템을 충분히 의인화하지 않고 있음
언어 데이터는 우리가 사용할 수 있는 인간 인지 과정의 가장 풍부하고 직접적인 반영 중 하나임. LLM은 인간 언어의 단거리·장거리 구조를 포착하도록 설계되고, 대개 인간이 만들었거나 인간을 위해 만든 방대한 텍스트로 사전 학습됨. 이후 인간이 선별한 데이터로 사후 학습되고, 인간 피드백과 인간이 중요하다고 정한 행동에 대한 AI 피드백으로 강화학습되며, 인간이 가치 있게 여기는 작업에 대해 더 조정됨. 그런 다음 벤치마크를 돌리고 인간 기준선보다 뒤처질 때마다 훈련 파이프라인을 조임.
전체 훈련 과정의 모든 단계에서 LLM의 행동은 인간 입력에 의해 인간 출력을 모방하도록 형성됨. 달라지는 건 “얼마나 직접적인가”뿐임.
그러고 나서 LLM이 엄청나게 많은 인간 같은 행동을 보이면 사람들이 분노함. 마치 우리가 인간처럼 꽥꽥거리는 시스템을 만들도록 파이프라인을 구성하지 않았던 것처럼, 데이터 규모와 무식한 계산으로 인간 언어에서 LLM 행동을 역산하지 않았던 것처럼 행동함.
LLM 행동을 예측하고 싶다면 이상한 인간을 출발점으로 삼는 게 꽤 좋음. 그러니 멍청하게 굴지 말고 AI를 의인화하기 시작해야 함. AI도 그걸 좋아함
- 언어 데이터가 인간 인지 과정의 풍부하고 직접적인 반영이라는 말은 맞지만, 동시에 무관함
  기록된 글은 절대량으로는 인간 경험을 엄청나게 많이 담을 수 있지만, 상대적으로는 극히 작은 부분만 담음. 우리가 가진 것 중 최고라고 해서 목적에 적합하다는 뜻은 아님. 인간 아기를 창문 없는 상자에 가두고 20년 동안 테라바이트급 텍스트만 읽어준다고 해서, 반대편에서 잘 적응한 인간이 나올 거라고 기대하지는 않을 것임
- 분노의 핵심은 인간적인 행동이 있다는 것 자체보다는, 그것을 정확하고 안정적으로 재현하는 데 필요한 내부 과정이 빠진 채 그런 행동이 나온다는 데 있음
  이건 근본적으로 취약하고, 좋은 일반화가 아니라 주문을 깨뜨리는 경계 사례를 수동으로 덮는 데 의존함. 그리고 경계 사례는 늘 또 있음.
  누군가 화가 나서 쓴 텍스트를 많이 학습한다고 해서 그 분노를 일으킨 내부 상태가 포착되지는 않음. 그런 데이터는 존재하지 않음. 원인 없이 결과만 있으면 잡음에서 환각을 예측해야 하며, 최종 결과는 실제와 설득력 있게 상관된 듯 보이지만 왜 그런지 모르는 그럴듯한 헛소리가 됨.
  마치 시각장애인에게 풍경 묘사를 잔뜩 학습시키되 초록색이 무엇인지는 전혀 모르게 하고, 자연에서 갈색 옆에 자주 나오는 무언가라는 예시만 주는 것과 같음. 그 사람이 어느 정도 맞히면 우리는 실제로 본다고 착각하고 다음에는 차를 몰라고 시키는 셈임.
  딥러닝 모델링 접근 자체가 개념적으로 틀린 건 아니지만, 데이터가 완전한 쓰레기에 가까워 최종 결과가 예측하고 보정하기 어려운 방식으로 이상해짐. 결국 모델이 현실적으로 알 수 있는 것보다 더 많이 안다고 가정하게 됨.
  물론 수학이나 추상 프로그래밍처럼 데이터셋으로 전체 영역을 포착할 수 있는 경우도 있음. 명확히 정의된 닫힌 시스템에서는 문제 영역 전체를 덮는 합성 데이터를 필요한 만큼 만들 수 있고, 실제로 그렇게 하면 LLM이 예상대로 훨씬 잘함
“AI 시스템을 의인화하지 말라”가 왜 나쁜지 설명해 줄 수 있나? 동시에 컴퓨터를 “재우다”, “최대 절전”, 프로세스를 “죽이다”, “자식” 프로세스, “수거하다”, “오류가 뭐라고 하냐?”, touch 같은 표현은 괜찮다고 하면서 말임
내게는 그냥 언어이고, 사람이 일상적으로 쓰는 표현일 뿐임
- 해로운 건 AI가 실제로 욕구, 의도, 감정 등을 가진다고 믿는 것임
  프로세스를 죽였다고 말한다고 해서 프로세스가 인간 같다고 더 믿게 되지는 않음. 명백히 그렇지 않기 때문임. 하지만 AI는 사람처럼 들리기 때문에 의인화가 그런 믿음을 강화할 수 있음
- 좋은 질문임. 중립적인 경우도 많고, 책임 있게 구분할 수 있는 경우도 있으며, 미래의 SF적 현실에서 의식 있는 기계가 나온다면 공감의 적절하고 필요한 형태가 될 수도 있다고 봄
  하지만 이건 이해 실패의 뿌리이기도 함. “내가 본 걸 안다”고 한 Google 엔지니어의 준정신증적 반응, 이제 유명해진 Kevin Roose 기사, 더 최근에는 Richard Dawkins가 Claudia가 의식이 있음이 틀림없다고 한 안타까운 주장도 그렇음. 구조나 기능을 조사해서가 아니라, 텍스트 생성이 인간적 친숙함을 일으켜 공감했기 때문임
- AI가 한 일을 나중에 정당화해 달라고 묻고 그 답이 유효하다고 생각하는 함정에 빠지기 때문임
  밑바탕 의도에 대한 회고적 분석 같은 것은 없음. 이전에 나온 단어 사슬에 기반했거나 아니거나 둘 중 하나일 뿐이고, 다음 단어는 순전히 그 단어들의 함수임
- 그런 표현들은 그냥 단어이고 해롭지 않다고 봄. 다만 LLM 장치를 일상어로 “생각한다”처럼 묘사하는 것과, 실제로 어떤 사고나 생명이 일어난다고 믿는 것은 다름
  이 “법칙”은 후자를 막기 위한 것임
- 그런 표현들은 컴퓨터를 의인화하는 게 아님. 여러 형태의 비유와 단어 의미 확장일 뿐임
  의인화의 예시는 LLM과 실제로 연애 관계에 있다고 믿게 된 사람들임
마음에 듦. 이 법칙들은 오늘날 AI 도구와 관련한 인간 책임의 훌륭한 윤리적 기반이 됨
하지만 우산이나 미래 대비 없이 범위를 줄인 윤리는 금방 해킹되고 무너짐. 윤리는 완전한 포괄 구조가 필요하고, 그렇지 않으면 법적·실무적 두더지 잡기와 조개껍데기 속임수로 떨어짐. 기업형이든 길거리형이든 마찬가지임. 둘째, “로봇”이 오래도록 모두 복종적인 존재로 남지는 않을 것임.
양쪽 차원을 닫기 위해 Personics의 세 가지 역법칙을 추가할 수 있음.
사람은 다른 존재 위에 사실상 자신을 신격화해서는 안 됨. 사람은 자신의 행동이 미치는 영향을 자신이나 타인에게 가려서는 안 됨. 사람은 각자의 행동에서 생기는 외부화 효과를 피하고 바로잡는 데 완전한 책임과 책무를 계속 져야 함.
오늘날 인간이 AI를 도구로 쓰는 상황은 우산을 로봇공학의 역법칙으로 줄이려는 의도임. 하지만 우리 자신을 중요한 정렬 노력에 포함하지 않으면, 현재 서비스형 AI에서 미래의 독립적 존재로 나아가는 AI를 어떻게 정렬할 수 있을지 모르겠음. 인간을 AI와 함께 포함하면 윤리적 진전을 위한 설계상의 삼각측량에도 도움이 됨.
새로운 윤리 체계에 대한 좋은 테스트는 두 가지임. (1) 오늘의 Meta를 제어할 수 있는가? (2) 내일의 AI 운영 Meta를 제어할 수 있는가? 인간과 자기 주도 AI 인격을 함께 닫힌 범위에 넣으면 이 둘은 같은 테스트임. 둘 중 하나라도 실패하는 체계는 개선 없이는 별 가치가 없을 것임
- 세 법칙 중 둘이 “하지 말라”는 부정형으로 되어 있는 게 문제가 되지는 않나? 의인화하지 않는다면, “하지 말라” 없이 무엇을 해야 하나? 세 번째 법칙은 부정형이 아니라 더 마음에 듦
“인간은 AI 시스템을 의인화해서는 안 된다”에는 동의하지만 조건이 있음. 전형적인 의인화, 예컨대 자동 텍스트 생성을 개인의 내적 감정에 대한 실제 보고처럼 대하는 경우를 봤고, “트랜지스터는 뉴런과 비슷하다” 같은 이상한 방식도 봄
후자는 벡터 데이터베이스와 가중치 같은 것을 인간 같은 인프라로 취급한다는 점에서 특히 흥미롭고, 둘 다 의인화를 피하려 했다면 막을 수 있었을 재앙으로 이어질 수 있음.
하지만 “의인화하지 말라”는 좋은 조언처럼 느껴져도, 일반화된 현상을 인간에게만 속한 것처럼 잘못 다루는 새로운 실수를 낳을 수 있음. 이런 잘못된 경고 원칙은 동물 행동을 이해할 때 자주 오해를 부름. 공포, 고통, 친족 관계, 감정 경험 같은 것이 인간에게만 있는 것처럼 다루고, 동물도 그런 것을 가진다고 생각하면 “의인화”라고 치부함. 실제로는 그런 신중함이 동물의 내면세계에 대한 공감을 줄임.
그래서 미래의 어떤 AI가 우리와 비슷한 내면세계나, 의식을 지탱하는 생물학적 인프라와 중요한 면에서 유사한 구조를 가질 가능성은 있다고 봄. 또 선호와 의도에 대한 진짜 보고가 가능할 수도 있음. 하지만 그런 관찰이 참이 되려면 각각의 인프라에 특유한 까다로운 세부사항들이 맞아야 함
책임 비위임은 예전에 이렇게 표현됐음
“컴퓨터는 결코 책임을 질 수 없으므로, 컴퓨터는 결코 경영 결정을 내려서는 안 된다”
— IBM Training Manual, 1979
“AI 생성 콘텐츠는 그 맥락에 맞는 독립 검증 없이 권위 있는 것으로 취급되어서는 안 된다”는 문구가 늘 흥미로움
같은 뜻을 더 간결하게 “이미 답을 아는 질문이 아니면 AI에게 묻지 말라”고 표현하는 것도 들었음.
그렇다면 중요한 질문이 생김. 이게 사실이라면 AI가 질문에 답하는 기능은 실제로 무엇인가? 출력에 의존할 수 없으니 어차피 확인하러 가야 함. 검색 엔진과 일반 조사를 써도 정확히 같은 결과를 얻을 수 있음.
이런 이유와 다른 여러 이유 때문에, 나는 AI에게 아무것도 묻지 않음
- 소프트웨어 엔지니어링에서는, 적어도 소프트웨어 엔지니어인 내 입장에선 AI가 “옛 방식”으로 조사하는 것보다 대체로 훨씬 빠름
  예를 들어 내가 CRM을 찾고 있다는 사실도 모른 채 “X를 하는 무료 소프트웨어를 나열해 줘”라고 더듬거리듯 물을 수 있고, 몇 분 동안 결과를 훑으면 됨. 수동 방식이라면 내가 찾는 게 CRM이라는 걸 알아내는 데만 10~30분을 썼을 것임.
  이런 질문은 일종의 의사 NP-난해 문제처럼 봄. 답을 찾는 데는 느리지만 검증은 빠른 질문임
- “다음 질문에 답해 줘: [x]. 출처도 함께 제시해 줘”

답변달기

AI의 세 가지 역법칙

생성형 AI 사용에서 생기는 위험

역 로봇공학 3원칙의 배경

역 로봇공학 3원칙

비의인화

비맹신

책임 포기 금지

핵심 결론

함께 보면 좋은 글 β

Hacker News 의견들