# Factorio 학습 환경 – 공장을 건설하는 에이전트

> Clean Markdown view of GeekNews topic #19699. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19699](https://news.hada.io/topic?id=19699)
- GeekNews Markdown: [https://news.hada.io/topic/19699.md](https://news.hada.io/topic/19699.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-03-12T09:50:16+09:00
- Updated: 2025-03-12T09:50:16+09:00
- Original source: [jackhopkins.github.io](https://jackhopkins.github.io/factorio-learning-environment/)
- Points: 1
- Comments: 1

## Topic Body

- Factorio 게임을 기반으로 한 Factorio Learning Environment(FLE)는 장기 계획, 프로그램 생성, 자원 최적화를 테스트하는 환경임  
- FLE는 기본 자동화에서 복잡한 공장까지 확장 가능한 도전을 제공하며, 두 가지 설정을 포함함: 고정된 자원으로 24개의 구조화된 작업을 수행하는 'Lab-play'와 무한한 과제를 제공하는 'Open-play'.  
- **FLE의 중요성**  
  - FLE는 코드 생성, 공간 추론, 장기 계획을 평가하기 위한 인프라, API, 메트릭을 제공함.  
  - 에이전트는 자원을 추출하고 복잡한 생산 체인을 관리하며, 이를 통해 점점 더 복잡한 목표를 설정하고 달성해야 함.  
- **환경 및 에이전트**  
  - 에이전트는 Python API를 통해 환경과 상호작용하며, 프로그램을 제출하고 피드백을 받아 전략을 개선함.  
  - 에이전트 프로그램은 생산 점수(PS)와 기술 발전을 나타내는 이정표를 생성함.  
- **실험 설정**  
  - 두 가지 실험 설정: 'Open-play'와 'Lab-play'.  
  - 여섯 가지 최첨단 언어 모델을 평가: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.  
- **Open-Play**  
  - 에이전트는 절차적으로 생성된 세계에서 "가장 큰 공장을 건설"하는 목표를 가짐.  
  - 생산 점수를 통해 에이전트의 능력을 평가하며, 더 뛰어난 모델은 더 높은 점수와 가파른 성장 곡선을 보임.  
- **Lab-Play**  
  - 에이전트는 자원을 제공받고 제한된 시간 내에 목표를 달성해야 함.  
  - 24개의 목표 엔티티를 생산하는 과제를 수행하며, 각 엔티티는 점점 더 복잡해짐.  
- **주요 통찰**  
  - 코딩 능력이 성능을 예측하며, 기술 투자와 계획이 성장을 주도함.  
  - 공간 추론과 오류 복구는 주요 도전 과제임.  
  - 모델은 서로 다른 프로그래밍 스타일을 보임.  
- **결론**  
  - 최신 LLM도 자동화 작업의 조정 및 최적화 문제에서 어려움을 겪음.  
  - Factorio의 기술 트리의 복잡성은 AI 연구가 계속 발전하더라도 여전히 도전적인 평가 시나리오를 제공함.  
  - FLE는 복잡하고 무한한 도메인에서 에이전트의 능력을 연구하기 위한 오픈 소스 플랫폼으로 제공됨.

## Comments


### Comment 35749

- Author: neo
- Created: 2025-03-12T09:50:16+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=43331582) 
- Anthropic Factorio 연구소에 지원하고 싶음. 멀티모달 데이터 전송 여부가 궁금함. 최근 출시된 Qwen 2.5 VLM이 크기에 비해 강력해 보임
  - 공간 능력 부족에 대한 언급이 많음. 이미지 전송 여부와 관련된 생각이 궁금함
  - 이 작업이 놀라움. 지금 당장 이 프로젝트에 참여하고 싶음
  - MCP가 파이썬 라이브러리를 활성화하는 것이 자연스러운 필수 작업으로 보임

- 강화 학습을 사용하여 포켓몬 레드를 이긴 팀에 대한 HN 게시물이 있었음. 이 접근법을 Factorio에 사용할 수 있을지 궁금함
  - Factorio의 주요 "필수 작업"은 새로운 아이템과 과학 팩의 자동화 설정임
  - 보상 함수는 각 아이템의 생산 속도에 대한 작은 보상, 새로운 아이템 자동화에 대한 중간 보상, 새로운 과학 팩 자동화에 대한 큰 보상을 포함할 수 있음
  - Factorio 에이전트에게 "큰 공장을 만들어라"라고 말하는 것은 포켓몬 레드 에이전트에게 "게임을 이겨라"라고 말하는 것과 같음

- 모든 모델이 다중 섹션 공장을 구축할 때 공간 계획에서 제한을 보였음
  - LLM이 공간 추론에 약한 이유는 훈련 데이터가 많지 않기 때문임
  - 공간 추론이 해결되면 어떤 추가적인 추론 능력이 나타날지 궁금함

- 대규모 효율적인 공장을 자율적으로 구축하기 위해 LLM을 고급 에이전트로 사용할 수 있음
  - 자원 생산을 위한 목표 설정
  - 공장 그래프 생성 및 자원 운송 계산
  - 하드웨어 설명 언어로 그래프 매핑
  - 2D FPGA 레이아웃으로 컴파일
  - 계획을 구체적인 Factorio 디자인으로 매핑

- 실험할 흥미로운 요소가 많음. 시간 관련 요소가 있는 실험실 시나리오가 좋은 아이디어로 보임
  - DOTA 2나 StarCraft 2 실험과는 다른 프레임워크 디자인이 마음에 듦
  - 레이아웃 최적화 벤치마크 계획이 있는지 궁금함

- 이 스타일의 인터페이스에 대한 인간 플레이 벤치마크가 있는지 궁금함
  - 프로그램적 Factorio가 어떤 느낌일지 궁금함

- 몇 년 후 모든 게임 내 상대가 게임 제어 API에 액세스하는 LLM이 될지 궁금함
  - 모델이 어려움을 겪는 특정 작업 유형이 있는지 궁금함

- "Lab Play" 작업의 또 다른 카테고리로 밸런서 디자인이 흥미로울 것 같음
  - 작은 밸런서도 복잡할 수 있음

- 더 큰 공장의 사진을 더 보고 싶었음
  - 현재 LLM의 큰 약점을 명확히 보여줌
  - 온라인 학습/적응에서 더 큰 개선을 기대함

- 복잡한 시나리오가 몇 개만 있는 것이 흥미로움
  - ML 게임 에이전트가 게임 메커니즘을 제대로 배우려면 수백 개의 작은 퍼즐이 필요하다고 항상 생각했음
  - 시나리오를 프로그램적으로 생성하여 IQ 테스트 질문 은행처럼 사용할 수 있음
  - ML 에이전트가 더 큰 시나리오 은행에서 샘플을 평가할 때 더 빨리 학습한다고 가정함