- DeepMind가 Scalable Instructable Multiworld Agent(SIMA)를 공개
-
- Google DeepMind는 아타리 게임부터 인간 그랜드마스터 수준에서 StarCraft II를 플레이하는 AlphaStar 시스템에 이르기까지 AI와 게임 분야에서 오랜 역사를 가짐
- SIMA는 3D 가상 환경을 위한 범용 AI 에이전트로 다양한 비디오 게임 환경에서 자연어 지시를 따라 수행 가능
- 이번 연구는 개별 게임에 초점을 맞추는 대신 일반적이고 지시 가능한 게임 플레이 AI 에이전트로의 전환을 목표로 함
- 다양한 게임 개발자들과 협력하여 여러 비디오 게임에서 훈련됨
- AI 에이전트가 광범위한 게임 세계를 이해하고, 그 안에서 자연어 지시에 따라 작업을 수행할 수 있음을 처음으로 보여줌
비디오 게임에서 배우기
- SIMA는 Hello Games의 _No Man’s Sky_와 Tuxedo Labs의 _Teardown_을 포함한 9개의 다양한 비디오 게임에서 훈련 및 테스트됨
- 다양한 환경에 노출시키기 위해 게임 개발자들과 협력하여 8개 게임 스튜디오와 파트너십을 맺음
- SIMA는 간단한 탐색, 메뉴 사용부터 자원 채굴, 우주선 조종, 헬멧 제작에 이르기까지 다양한 기술을 배움
- Unity로 구축한 새로운 환경인 Construction Lab을 포함한 4개의 연구 환경에서도 사용됨
SIMA: 다재다능한 AI 에이전트
- SIMA는 다양한 환경을 인식하고 이해한 후 지시된 목표를 달성하기 위한 행동을 취할 수 있는 AI 에이전트임
- 정밀한 이미지-언어 매핑을 위한 모델과 화면에서 다음에 일어날 일을 예측하는 비디오 모델을 포함
- 게임 소스 코드나 특정 API에 접근할 필요 없이 화면 이미지와 사용자가 제공하는 간단한 자연어 지시만 필요
- SIMA는 키보드와 마우스 출력을 사용하여 게임의 중심 캐릭터를 제어하고 이러한 지시를 수행함
게임 및 기타 환경에서의 일반화
- 여러 게임에서 훈련된 에이전트가 단일 게임에서만 훈련된 에이전트보다 더 나은 성능을 보임
- 훈련된 환경에서 뿐만 아니라 보지 못한 환경에서도 인간 수준의 성능을 발휘하기 위해 더 많은 연구가 필요.
- SIMA의 성능은 언어에 의존하며, 언어 훈련이나 지시 없이는 적절하지만 목적 없이 행동함
AI 에이전트 연구 발전
- SIMA의 결과는 일반적인 언어 기반 AI 에이전트 개발의 잠재력을 보여줌
- 초기 단계 연구로, 더 많은 훈련 환경과 더 능력 있는 모델을 통합하여 SIMA를 더욱 발전시킬 것을 기대함
- 최종적으로는 사람들에게 온라인과 실제 세계에서 유용하게 다양한 작업을 이해하고 안전하게 수행할 수 있는 일반 AI 시스템과 에이전트를 구축하는 것을 목표로 함
GN⁺의 의견
- SIMA는 AI가 다양한 환경에서 인간처럼 지시를 이해하고 행동할 수 있는 능력을 보여주는 중요한 연구임
- 이러한 연구는 AI가 단순한 작업 수행을 넘어 복잡한 전략적 계획과 다중 작업을 수행할 수 있는 미래를 열어줄 수 있음
- 그러나 AI가 인간 수준의 성능을 발휘하기 위해서는 아직 많은 연구와 발전이 필요함
- 이 기술이 실제 세계의 문제를 해결하는 데 어떻게 적용될 수 있는지, 그리고 AI의 일반화 능력이 어떤 잠재적 한계를 가질 수 있는지에 대한 논의가 필요함
- 비슷한 기능을 가진 다른 AI 프로젝트로는 다양한 비디오 게임에서 학습할 수 있는 AI 플랫폼인 OpenAI Gym이 있음