# 최근 연구 결과에 따르면 LLM은 조합적 작업에 어려움을 겪는 것으로 나타남

> Clean Markdown view of GeekNews topic #19026. Use the original source for factual precision when an external source URL is present.

## Metadata

- GeekNews HTML: [https://news.hada.io/topic?id=19026](https://news.hada.io/topic?id=19026)
- GeekNews Markdown: [https://news.hada.io/topic/19026.md](https://news.hada.io/topic/19026.md)
- Type: GN+
- Author: [neo](https://news.hada.io/@neo)
- Published: 2025-02-03T09:46:43+09:00
- Updated: 2025-02-03T09:46:43+09:00
- Original source: [quantamagazine.org](https://www.quantamagazine.org/chatbot-software-begins-to-face-fundamental-limitations-20250131/)
- Points: 11
- Comments: 5

## Summary

최근 연구에 따르면 대규모 언어 모델(LLM)은 조합적 작업에서 한계를 드러내며, 이는 훈련 데이터에서 본 것을 넘어서는 복잡한 문제 해결에 어려움을 겪는다는 것을 보여줍니다. 연구진은 LLM이 단어 예측에 기반한 구조적 한계를 가지고 있으며, 트랜스포머 아키텍처가 복잡한 결합 추론 문제를 해결하는 데 수학적 한계가 있음을 입증했습니다. 이러한 한계를 극복하기 위해 다양한 보완책이 제안되고 있지만, LLM은 여전히 패턴 매칭에 기반하고 있어 복잡한 문제에서는 한계가 존재할 수 있습니다.

## Topic Body

- LLM은 조합적 작업(Compositional Task)에서 어려움을 겪고 있으며, 이는 그들의 능력에 한계가 있음을 시사  
  - 이러한 문제는 LLM이 훈련 데이터에서 본 것을 넘어서는 추론을 할 수 없다는 것을 보여줌  
- 1962년 12월 17일, Life International에 15개의 문장으로 구성된 논리 퍼즐이 실림  
- “영국인은 빨간 집에 산다” 혹은 “중앙 집에서 우유를 마신다”처럼 각 문장이 단서를 제공  
- 다섯 채의 집 색깔, 거주자의 국적, 애완동물, 음료 등 속성이 모두 달랐으며 “누가 얼룩말을 소유하는가”가 핵심 질문이었음  
- 이 문제는 Einstein’s puzzle(또는 riddle)이라고 불리며, 최근 머신 러닝 모델, 특히 대규모 언어 모델(LLM)의 다단계 추론 능력을 측정하는 지표로 사용중  
- Allen Institute for AI의 연구 과학자인 Nouha Dziri와 동료들은 ChatGPT 같은 LLM을 이 퍼즐에 적용해 한계를 확인  
- LLM이 훈련 데이터에서 본 내용 이상의 복잡한 문제를 해결하기 어렵다는 점이 드러남  
- 이는 “단계별로 해결한 결과들을 종합해 최종 해답에 이르는” 결합 추론(compositional reasoning)의 난이도를 보여줌  
- Dziri의 연구팀은 LLM이 단어 예측만으로 학습되는 구조적 한계가 있다고 주장  
- 다른 연구진 또한 현재 widely 사용 중인 트랜스포머(transformer) 아키텍처가 이러한 복잡한 문제 해결에 수학적으로 한계가 있음을 입증  
- 점점 더 강력한 모델이 나오고 있지만 이들이 근본적으로 모든 결합 추론 문제를 해결하지 못할 수 있다는 전망이 제기됨  
- Andrew Wilson(NYU)은 이러한 연구가 AI 연구 커뮤니티가 트랜스포머 중심 접근을 계속 밀고 나갈지 다시 고민하게 한다고 언급  
  
### 놀라운 성과가 불러온 의문  
- Dziri에 따르면, LLM이 놀라운 언어 능력을 보이기 시작하면서 “진짜 추론이 가능한가”라는 호기심이 커짐  
- LLM은 인터넷에 존재하는 방대한 텍스트로부터 단순한 방식(문장 완성 예측)으로 학습함에도 자연어 처리나 문서 요약, 코드 생성 등 복잡한 작업을 해내고 있음  
- OpenAI의 o1, GPT-4, Google의 Gemini, Anthropic의 Claude 등이 대표적인 거대 모델  
- 하지만 이런 모델들이 때론 인간이 보기엔 간단한 문제에서 뜻밖의 오류를 일으키기도 함  
- 예를 들어, 간단한 곱셈조차 자주 틀리는 사례가 보고됨  
- Dziri의 연구에 따르면 GPT-4에 세 자릿수 곱셈을 시켰을 때 59%만 정확했으며, 네 자릿수 곱셈으로 가면 4%로 크게 떨어짐  
- Einstein’s puzzle의 변형된 버전에서도, 집이 작으면(속성이 2-3개) 높은 정확도를 보였지만, 속성이 4-5개가 되자 성공률이 극적으로 낮아짐  
- GPT-3를 곱셈 데이터 180만 개로 파인튜닝했을 때, 훈련에 포함된 범위 내에서는 잘 풀었으나 훈련 예시와 다른 형식을 묻자 정답률이 급감  
- 이는 모델이 알고리즘 자체를 이해했다기보다 훈련 예시에 의존해 흉내 내는 것에 가깝다는 결론  
  
### 명백한 한계  
- Dziri와 다른 연구진이 공통적으로 지적하는 문제는 ‘결합 추론 능력’의 부족  
- Binghui Peng(Stanford University)은 콜럼비아대 박사과정 시절, LLM이 ‘아버지의 아버지는 누구인가’ 같은 사실 조합 질문에서 자주 틀린다는 점에 주목  
- 간단한 트랜스포머 계층(레이어)이 이런 문제를 푸는 데 얼마나 많은 매개변수가 필요한지 계산해보았고, 도메인 크기가 모델 파라미터 수보다 크면 해결 불가능하다는 결론을 얻음  
- 이후 다층 트랜스포머로 확장해도, 복잡한 결합 추론 문제에 부딪히면 수학적으로 불가함을 증명  
- 즉, 모델 규모가 커지면 더 어려운 문제를 풀 수는 있으나, 동시에 문제 난이도 또한 확장되면 한계가 드러나는 구조  
- 일부 연구진이 트랜스포머 외의 다른 신경망 구조, 예컨대 state-space models 등을 시도했지만 유사한 한계가 확인됨  
  
### 한계를 넘어서는 시도  
- LLM의 한계를 극복하기 위해 여러 보완책이 제안되고 있음  
- 예컨대 Tom Goldstein(University of Maryland) 팀은 숫자를 트랜스포머에 입력할 때 위치 정보를 추가로 부여해 더 큰 자리수 연산도 가능하게 함  
- 이런 작업을 통해 20자리 수로 훈련한 모델이 100자리 수 덧셈에도 98% 정확도를 보이는 결과가 나왔음  
- 또 다른 방법으로, 문제 풀이 과정을 프롬프트 안에 단계적으로 제시하는 chain-of-thought 기법도 있음  
- GPT-4 같은 모델은 이 방법을 통해 더 복잡한 문제도 해결할 수 있는 잠재력을 보이는 것으로 관찰됨  
- 이는 ‘큰 문제를 작은 문제들의 연쇄로 분해하는 원리’에 기반을 두고 있으며, 이 방식이 트랜스포머가 처리 가능한 연산 범위를 넓히는 효과를 일으킨다는 이론적 해석이 제시됨  
- 그러나 실제 모델이 모든 문제에서 이 능력을 발휘하는 것은 아니며, 훈련 방식과 모델 구조 등에 따라 결과가 달라짐  
- 궁극적으로 LLM은 패턴 매칭에 기반하고 있기 때문에, 크거나 복잡한 결합 추론 문제의 경우 항상 한계가 존재  
- 그럼에도 일반 사용자 입장에서는 이런 한계가 크게 중요하지 않을 수 있음  
- 반면, 모델을 만드는 연구진에겐 구조적 한계를 이해하고 수정하는 것이 핵심 과제  
- Dziri는 “LLM의 내부 작동 원리를 정확히 파악한다면 근본적 문제를 해결할 가능성이 커진다”고 강조

## Comments


### Comment 34162

- Author: ned0909
- Created: 2025-02-05T02:33:50+09:00
- Points: 1

추론 시대 전 이야기네요

### Comment 34158

- Author: bakyeono0
- Created: 2025-02-04T19:21:52+09:00
- Points: 1

~ 기호가 마크다운 취소선 조판부호로 인식되는 문제가 있어요. 수정해주시면 좋겠습니다.

### Comment 34119

- Author: rabolution
- Created: 2025-02-04T09:48:21+09:00
- Points: 1

코딩하면서 LLM을 쓸 때에는 그래서 결합도를 낮추고 관심사 분리를 잘 할 수록 일을 잘 하더군요. 사실 이거는 사람도 그렇지 않을까 싶기도 합니다. ;)

### Comment 34073

- Author: hided62
- Created: 2025-02-03T11:51:45+09:00
- Points: 1

글 자체는 최근인데, 글의 베이스는 o1 이전 것인가봐요.  
  
"아버지의 남동생의 어머니의 여자형제의 딸은 나와 몇촌 관계야?" 같은걸 물어봤는데,  
4o는 확실히 한계가 있고, o1은 함정까지 다 피해가던데요.

### Comment 34051

- Author: neo
- Created: 2025-02-03T09:46:43+09:00
- Points: 1

###### [Hacker News 의견](https://news.ycombinator.com/item?id=42905453) 
- LLM은 다른 머신러닝 모델처럼 입력 데이터를 패턴 매칭하여 통계적으로 가능성이 높은 결과를 도출하는 특성을 가짐
  - "Chain of thought"는 강화 학습과 결합하여 어려운 문제를 해결할 수 있게 함
  - 성공의 명확한 정의와 보상 모델이 필요함
  - 인간의 문제 해결 능력도 패턴 매칭에 의존하며, 인간은 대량의 정보를 효율적으로 통합할 수 있음

- LLM은 AI의 경이로움으로, 예전에는 불가능하다고 여겨졌던 것을 두 달마다 발전시키고 있음
  - 일부 과학자들은 LLM의 성과를 과소평가하고 있음
  - LeCun은 LLM이 막다른 길이라며 연구자들에게 다른 방향을 제시했음
  - Meta의 LLM 성과가 다른 회사들보다 뒤쳐져 있다는 점이 이러한 회의론과 관련이 있을 수 있음

- LLM 연구에 대한 잘못된 정보가 많음
  - 6-12개월 된 모델은 단순한 사고만 가능함
  - 복잡한 논리적, 알고리즘적 작업에는 시스템 2 사고가 필요함
  - LLM은 프로그래밍을 통해 사고할 수 있음

- `o3-mini-high`는 Prolog 코드를 빠르게 생성할 수 있었음
  - 예시로 주어진 Prolog 코드는 문제를 해결하는 데 성공적이었음

- 최근 연구 결과는 GPT-3, 3.5, 첫 번째 세대 4를 다루고 있음

- ChatGPT는 빠른 검색 엔진처럼 느껴지며, 많은 환각과 제한된 문맥을 가짐
  - 미래의 발전에 대한 약속은 많지만 실제 진전은 적음

- 연구 결과가 순수 LLM을 분석하는지, LLM 합성 엔진을 분석하는지 구분해야 함
  - o3의 ARC-AGI-1에서의 성과는 합성 엔진의 능력을 보여줌

- LLM은 2D 또는 3D 사고를 요구하는 간단한 질문에서 실패할 수 있음
  - AI는 2D/3D 세계를 잘 표현할 수 있도록 훈련될 수 있음

- LLM의 제한 사항이 기사에 언급되면, 몇 달 후에는 그 제한이 없는 챗봇이 등장함
  - 이러한 제한은 근본적인 것이 아님

- 학술 연구가 출판될 때쯤에는 이미 몇 달이 지난 경우가 많음
  - 최신 기술의 한계를 알고 싶다면 연구 논문보다 소셜 미디어를 참고하는 것이 나음