더 많은 에이전트가 필요할 뿐
- 대규모 언어 모델(LLMs)의 성능이 인스턴스화된 에이전트의 수에 따라 확장될 수 있음을 발견.
- 샘플링 및 투표 방법을 통해 기존의 복잡한 방법들과는 독립적으로 LLMs를 향상시킬 수 있으며, 향상 정도는 작업 난이도와 관련이 있음.
- 다양한 LLM 벤치마크에서 광범위한 실험을 수행하여 이러한 발견의 존재를 확인하고, 그 발생을 촉진할 수 있는 속성을 연구함.
- 연구에 사용된 코드는 공개적으로 이용 가능.
GN⁺의 의견
- 이 연구는 대규모 언어 모델의 성능 향상에 대한 새로운 접근 방식을 제시함으로써 인공지능 분야에 중요한 기여를 할 수 있음.
- 에이전트의 수를 늘리는 것이 성능 향상에 직접적인 영향을 미친다는 발견은, 자원 확장성과 효율성에 대한 새로운 관점을 제공함.
- 실험적인 결과가 실제 응용 프로그램에 어떻게 적용될 수 있는지에 대한 추가적인 연구가 필요함.
- 성능 향상이 작업 난이도와 관련이 있다는 점은, 특정 작업에 대한 언어 모델의 최적화 전략을 수립하는 데 도움이 될 수 있음.
- 공개된 코드를 통해 다른 연구자들이 이 연구를 재현하고 확장하는 데 기여할 수 있으며, 이는 과학적 투명성과 협력을 촉진함.
Hacker News 의견
-
첫 번째 댓글 요약:
- 이 논문은 다중 에이전트 설정(예: Chain-of-thought, LLM-Debate)의 전체 아이디어에 의문을 제기함.
- 대안적 방법으로 동일한 LLM에 같은 질의를 여러 번 실행하고, 답변 간 유사성 알고리즘을 사용하여 가장 흔한 답변을 선택함.
- 이 간단한 알고리즘은 다른 다중 에이전트 알고리즘들과 비교해도 뛰어난 성능을 보임.
- 이는 다중 에이전트 스키마가 특별한 것을 하고 있지 않으며, 개선된 결과는 주로 LLM이 여러 번 실행되고 최선의 답변을 선택하도록 요청하는 프롬프트 때문임을 시사함.
-
두 번째 댓글 요약:
- 16개월 동안 단일 에이전트가 모든 것을 올바르게 처리하는 것에 집중하는 대신 에이전트를 계층화할 필요가 있다고 주장해옴.
- 작업에 대한 수익률이 이상적인 인간 회의 크기와 비슷하게 빠르게 감소하는 것이 흥미로움.
- 에이전트의 수를 더 세밀하게 조정하면 이상적인 회의 크기와 얼마나 일치하는지 궁금함.
- 각 에이전트가 약간 다른 목표로 미세 조정될 때 얻을 수 있는 성능 향상을 보고 싶어함.
-
세 번째 댓글 요약:
- 최근 ACM ByteCast 팟캐스트 에피소드에서 스탠포드 대학교 컴퓨터 과학과의 에드워드 창 교수가 다룬 내용과 관련이 있음.
- 여러 LLM이 토론 주제에 대해 서로 대화하고 인간이 중재자 역할을 하는 방식을 사용함.
- 여러 LLM이 대화를 통해 도달한 최종 답변은 정확도와 정밀도 모두에서 크게 향상됨.
-
네 번째 댓글 요약:
- 전문가의 혼합에 대한 연구에서 느끼는 좌절은, LLM을 여러 번 질의하고 다수결로 결과를 선택하는 것이 한 번 질의하고 그 결과를 선택하는 것보다 일반적으로 성능이 더 좋다는 기본 확률적 추론임.
- 다양한 LLM의 혼합이나 작업을 하위 작업으로 나누는 더 나은 방법을 찾음으로써 이득을 더욱 향상시킬 수 있을 것으로 보임.
-
다섯 번째 댓글 요약:
- 그래프를 보면 에이전트 10개로 대부분의 이득을 얻고, 20개로 약간 더 많은 이득을 얻으며, 그 이후로는 수익률이 감소함.
-
여섯 번째 댓글 요약:
- LLM 서비스를 제공하는 회사들의 비즈니스 모델에 대한 장난스러운 생각: 여러 번 호출해야만 목적지로 갈 수 있는 차량 서비스, 여러 번 적용해야만 옷이 "아마도" 깨끗해지는 세제.
- "인공 지능"을 제공하는 회사라면, 올바른 답변에만 비용을 지불하는 것이 합리적임.
-
일곱 번째 댓글 요약:
- 이 방법이 매우 비싸고 지속 가능하지 않은 것은 아닌지, 새로운 모델들이 아마도 수익률이 감소할 것으로 보이기 때문에 MoE가 나아가야 할 방향이라는 의견에 동의함.
- 단일 프롬프트에 대한 계산이 7-15배 증가할 것임.
-
여덟 번째 댓글 요약:
- 공개된 저장소와 벤치마크에 사용된 프롬프트가 매우 흥미로움.
- LLM 기반 에이전트를 도구 세트를 사용하여 벤치마킹하는 것을 보고 싶어함.
-
아홉 번째 댓글 요약:
- "x가 전부 필요하다"는 말을 모두 합치면, 실제로 많은 것이 필요하다는 것을 깨닫게 될 것임.
-
열 번째 댓글 요약:
- 어떤 수의 GPT 3.5 에이전트들의 앙상블은 한 번의 GPT-4 호출보다 정확도가 떨어짐.