Hacker News 의견
  • Anthropic Factorio 연구소에 지원하고 싶음. 멀티모달 데이터 전송 여부가 궁금함. 최근 출시된 Qwen 2.5 VLM이 크기에 비해 강력해 보임

    • 공간 능력 부족에 대한 언급이 많음. 이미지 전송 여부와 관련된 생각이 궁금함
    • 이 작업이 놀라움. 지금 당장 이 프로젝트에 참여하고 싶음
    • MCP가 파이썬 라이브러리를 활성화하는 것이 자연스러운 필수 작업으로 보임
  • 강화 학습을 사용하여 포켓몬 레드를 이긴 팀에 대한 HN 게시물이 있었음. 이 접근법을 Factorio에 사용할 수 있을지 궁금함

    • Factorio의 주요 "필수 작업"은 새로운 아이템과 과학 팩의 자동화 설정임
    • 보상 함수는 각 아이템의 생산 속도에 대한 작은 보상, 새로운 아이템 자동화에 대한 중간 보상, 새로운 과학 팩 자동화에 대한 큰 보상을 포함할 수 있음
    • Factorio 에이전트에게 "큰 공장을 만들어라"라고 말하는 것은 포켓몬 레드 에이전트에게 "게임을 이겨라"라고 말하는 것과 같음
  • 모든 모델이 다중 섹션 공장을 구축할 때 공간 계획에서 제한을 보였음

    • LLM이 공간 추론에 약한 이유는 훈련 데이터가 많지 않기 때문임
    • 공간 추론이 해결되면 어떤 추가적인 추론 능력이 나타날지 궁금함
  • 대규모 효율적인 공장을 자율적으로 구축하기 위해 LLM을 고급 에이전트로 사용할 수 있음

    • 자원 생산을 위한 목표 설정
    • 공장 그래프 생성 및 자원 운송 계산
    • 하드웨어 설명 언어로 그래프 매핑
    • 2D FPGA 레이아웃으로 컴파일
    • 계획을 구체적인 Factorio 디자인으로 매핑
  • 실험할 흥미로운 요소가 많음. 시간 관련 요소가 있는 실험실 시나리오가 좋은 아이디어로 보임

    • DOTA 2나 StarCraft 2 실험과는 다른 프레임워크 디자인이 마음에 듦
    • 레이아웃 최적화 벤치마크 계획이 있는지 궁금함
  • 이 스타일의 인터페이스에 대한 인간 플레이 벤치마크가 있는지 궁금함

    • 프로그램적 Factorio가 어떤 느낌일지 궁금함
  • 몇 년 후 모든 게임 내 상대가 게임 제어 API에 액세스하는 LLM이 될지 궁금함

    • 모델이 어려움을 겪는 특정 작업 유형이 있는지 궁금함
  • "Lab Play" 작업의 또 다른 카테고리로 밸런서 디자인이 흥미로울 것 같음

    • 작은 밸런서도 복잡할 수 있음
  • 더 큰 공장의 사진을 더 보고 싶었음

    • 현재 LLM의 큰 약점을 명확히 보여줌
    • 온라인 학습/적응에서 더 큰 개선을 기대함
  • 복잡한 시나리오가 몇 개만 있는 것이 흥미로움

    • ML 게임 에이전트가 게임 메커니즘을 제대로 배우려면 수백 개의 작은 퍼즐이 필요하다고 항상 생각했음
    • 시나리오를 프로그램적으로 생성하여 IQ 테스트 질문 은행처럼 사용할 수 있음
    • ML 에이전트가 더 큰 시나리오 은행에서 샘플을 평가할 때 더 빨리 학습한다고 가정함