GN⁺: AI 행동 가이드라인의 공개 필요성
(twitter.com/ID_AA_Carmack)- 둠 개발자이자 Oculus의 CTO 였던 John Carmack의 트윗
"프롬프트 엔지니어링과 필터링으로 설정된 AI 행동 가드레일은 공개되어야 하며, 제작자는 사회에 가장 좋은 것이 무엇인지에 대한 자신의 비전과 이를 명령과 코드로 구체화한 과정을 자랑스럽게 밝혀야 합니다.
사실 많은 사람들이 부끄러워하고 있다고 생각합니다.
물론 인간의 피드백을 통해 강화 학습으로 인코딩된 수천 개의 작은 넛지는 훨씬 더 그럴듯한 부정 가능성을 제공합니다."
Hacker News 의견
- 구글은 이미지 인식 모델에서 흑인을 고릴라로 잘못 인식하는 등의 비판을 받은 이후, 이미지 생성 시스템에서 다양성을 과도하게 반영하려고 노력한 것으로 보임.
- 대규모 콘텐츠 관리나 모더레이션에 직접 관여한 적은 없지만, 자동화된 규칙이 일반적으로 공개되지 않는 것은 보안을 위한 일종의 '암호화'가 필요하기 때문으로 이해함. 예를 들어, 금지어 목록을 공개하면 사람들이 목록에 없는 단어를 사용해 문제가 되는 내용을 표현하는 방법을 쉽게 찾을 수 있음. 그러나 현재로서는 더 나은 접근 방식이 없는 것 같음.
- Gemini는 백인 캐릭터 생성에 문제가 있으며, 이는 더욱 인종차별적인 문제를 야기할 수 있음. 다양성, 형평성, 포괄성(DEI)에 대한 노력이 오히려 실패를 불러올 수 있음.
- Gemini의 안전장치가 매우 답답하며, 무해한 프롬프트에도 여러 번 걸림. ChatGPT도 비슷하지만 Gemini만큼 나쁘지는 않음. 피드백을 통해 안전장치를 조금 낮추길 바라지만, 가까운 미래에는 이런 상황이 계속될 것 같음.
- 로컬에서 LLMs(대규모 언어 모델)과 Stable Diffusion을 쉽게 실행할 수 있으며, 사용자의 요청에 따라 작동함. 강력한 컴퓨터가 있으면 OpenAI나 Gemini보다 빠르게 실행될 수 있음. LM Studio와 AUTOMATIC1111은 로컬에서 각각 LLMs와 Stable Diffusion을 실행하는 것을 간단하게 만들어 줌.
- 검열은 검열 대상이 무엇인지 모를 때만 효과적임. 검열되는 내용 자체가 이야기를 전달함.
- AI 행동 안전장치에 대한 투명성을 높이는 것을 보고 싶지만, 이것이 곧 이루어질 것으로 기대하지는 않음. 투명성은 안전장치를 우회하는 것을 훨씬 쉽게 만들 수 있음.
- 사람들이 흑인 여성을 요청했을 때 백인 남성이 생성되는 것에 분노할 것을 알고 있어서 구글은 안전한 길을 택했지만, 현재의 결과도 받아들여져서는 안 됨을 보여줘야 함.
- 이 안전장치를 작성한 팀의 지리적 배경과 사용한 언어가 궁금함. 결과물은 남아시아인(특히 남아시아 여성)과 흑인을 주로 생성하는 경향이 있으며, 라틴계는 거의 생성되지 않음. 이는 미국 기반의 팀이라면 큰 누락이 될 수 있음. 그러나 스테레오타입의 원주민 또는 동아시아인은 가끔 생성됨.
- 이것은 당신을 해칠 수 있음. 당신을 해치지 않기 위한 것임. 그러나 어떻게 해를 입힐 수 있는지, 어떻게 보호하는지에 대해서는 알 수 없음.