최근 연구 결과에 따르면 LLM은 조합적 작업에 어려움

▲

GN⁺ 2025-02-03 | parent | ★ favorite | on: 최근 연구 결과에 따르면 LLM은 조합적 작업에 어려움을 겪는 것으로 나타남(quantamagazine.org)

Hacker News 의견

LLM은 다른 머신러닝 모델처럼 입력 데이터를 패턴 매칭하여 통계적으로 가능성이 높은 결과를 도출하는 특성을 가짐
- "Chain of thought"는 강화 학습과 결합하여 어려운 문제를 해결할 수 있게 함
- 성공의 명확한 정의와 보상 모델이 필요함
- 인간의 문제 해결 능력도 패턴 매칭에 의존하며, 인간은 대량의 정보를 효율적으로 통합할 수 있음
LLM은 AI의 경이로움으로, 예전에는 불가능하다고 여겨졌던 것을 두 달마다 발전시키고 있음
- 일부 과학자들은 LLM의 성과를 과소평가하고 있음
- LeCun은 LLM이 막다른 길이라며 연구자들에게 다른 방향을 제시했음
- Meta의 LLM 성과가 다른 회사들보다 뒤쳐져 있다는 점이 이러한 회의론과 관련이 있을 수 있음
LLM 연구에 대한 잘못된 정보가 많음
- 6-12개월 된 모델은 단순한 사고만 가능함
- 복잡한 논리적, 알고리즘적 작업에는 시스템 2 사고가 필요함
- LLM은 프로그래밍을 통해 사고할 수 있음
o3-mini-high는 Prolog 코드를 빠르게 생성할 수 있었음
- 예시로 주어진 Prolog 코드는 문제를 해결하는 데 성공적이었음
최근 연구 결과는 GPT-3, 3.5, 첫 번째 세대 4를 다루고 있음
ChatGPT는 빠른 검색 엔진처럼 느껴지며, 많은 환각과 제한된 문맥을 가짐
- 미래의 발전에 대한 약속은 많지만 실제 진전은 적음
연구 결과가 순수 LLM을 분석하는지, LLM 합성 엔진을 분석하는지 구분해야 함
- o3의 ARC-AGI-1에서의 성과는 합성 엔진의 능력을 보여줌
LLM은 2D 또는 3D 사고를 요구하는 간단한 질문에서 실패할 수 있음
- AI는 2D/3D 세계를 잘 표현할 수 있도록 훈련될 수 있음
LLM의 제한 사항이 기사에 언급되면, 몇 달 후에는 그 제한이 없는 챗봇이 등장함
- 이러한 제한은 근본적인 것이 아님
학술 연구가 출판될 때쯤에는 이미 몇 달이 지난 경우가 많음
- 최신 기술의 한계를 알고 싶다면 연구 논문보다 소셜 미디어를 참고하는 것이 나음