▲crawler 5달전 | parent | ★ favorite | on: AI의 장기 작업 수행 능력 측정(metr.org)아주 좋은 벤치 같은데요 요즘 AI 코딩 툴들을 보면 Plan을 미리 세우고 Agent 모드로 행동하게 하는 경우가 많은데, 이게 정말 장기 성공률에 유의미한 영향을 주는 지도 궁금하네요
아주 좋은 벤치 같은데요
요즘 AI 코딩 툴들을 보면 Plan을 미리 세우고 Agent 모드로 행동하게 하는 경우가 많은데, 이게 정말 장기 성공률에 유의미한 영향을 주는 지도 궁금하네요