GN⁺: "LLMs의 '급발진' 능력, 사실은 점진적이고 예측 가능하게 발달한다 – 연구 결과"
(quantamagazine.org)대규모 언어 모델의 예상치 못한 기술 학습 속도는 얼마나 빠른가?
- 대규모 언어 모델(Large Language Models, LLMs)의 능력에 대한 새로운 연구는 이른바 '급발진 능력'이 실제로는 점진적이고 예측 가능하게 발달한다고 제안함.
- 연구자들은 이러한 능력을 '급발진' 행동으로 묘사했으며, 이는 물리학에서 액체가 얼음으로 변하는 상전이와 유사하다고 비유함.
- 그러나 스탠포드 대학의 연구진은 이러한 능력의 갑작스러운 출현이 연구자들이 LLM의 성능을 측정하는 방식의 결과일 뿐이라고 주장함.
대규모 언어 모델의 성능 측정
- 대규모 언어 모델은 방대한 텍스트 데이터셋을 분석하여 자주 함께 나타나는 단어들 사이의 연결을 찾아냄.
- 모델의 크기는 파라미터의 수로 측정되며, 파라미터가 많을수록 LLM은 더 많은 연결을 찾을 수 있음.
- GPT-2는 15억 개의 파라미터를 가졌고, GPT-3.5는 3,500억 개, GPT-4는 1.75조 개의 파라미터를 사용함.
예상치 못한 능력의 점진적 발달
- 스탠포드 대학의 연구진은 LLM의 능력이 갑작스럽고 예측 불가능하게 나타나는 것이 아니라 점진적이고 예측 가능하다고 주장함.
- 예를 들어, 세 자리 수 덧셈에서 GPT-3과 LAMDA는 파라미터가 적을 때 정확한 계산을 실패했지만, 파라미터가 증가하면서 갑자기 덧셈을 할 수 있게 됨.
- 연구진은 정확도만으로 LLM을 평가하는 대신 부분 점수를 주는 측정 방식을 사용하여 LLM이 점진적으로 올바른 숫자의 순서를 예측하는 것을 발견함.
다른 과학자들의 견해
- 다른 과학자들은 이 연구가 '급발진' 개념을 완전히 해소하지는 않는다고 지적함.
- 어떤 측정 기준이나 언제 LLM의 성능이 급격히 향상될지 예측하는 방법은 여전히 불확실함.
- 일부 과학자들은 이전의 '급발진' 보고가 정확했다고 주장하며, 산술과 같은 능력에 있어서는 정답이 전부라고 강조함.
GN⁺의 의견
- 이 연구는 인공지능의 안전성과 잠재적 위험에 대한 논의에 중요한 영향을 미칠 수 있음. LLM의 능력이 예측 가능하게 발달한다면, 이는 AI의 안전한 개발과 관리에 있어 중요한 지표가 될 수 있음.
- 연구 결과가 실제 AI 개발에 적용될 때, 개발자들은 성능 측정 방식의 중요성을 인식하고 더 정교한 평가 방법을 고안해야 할 필요성이 있음.
- 이 기사는 AI 연구의 최전선에서 일어나는 변화와 발전을 이해하는 데 도움을 줄 수 있으며, 특히 AI 모델의 성능 평가 방식에 대한 새로운 시각을 제공함.
- 비판적인 관점에서 볼 때, 연구 결과가 모든 LLM의 성능 향상을 설명하지는 못하며, 더 크고 복잡한 모델에서는 '급발진' 현상이 여전히 발생할 수 있음을 인정해야 함.
- 이 기술과 관련하여, OpenAI의 GPT 시리즈는 이미 시장에서 널리 사용되고 있으며, 이 연구는 GPT와 유사한 다른 LLMs의 개발에 영감을 줄 수 있음.
Hacker News 의견
-
연구와 관련된 몇 가지 문제점
- 연구에서 사용된 평가 방식이 기술력을 제대로 반영하지 못할 수 있음.
- 저자들의 측정 기준에도 불구하고 몇 가지 잠재적인 능력이 나타남.
- 과거 데이터를 바탕으로 결과를 예측하는 것은 쉽지만, 실제로는 예상치 못한 결과가 나타난 것이 중요한 현상임.
- 이 논문에는 가치가 있으나 결론을 지나치게 확장해서는 안 됨.
-
미래 예측의 어려움
- 미래를 예측하는 것은 이미 일어난 후에야 쉬워짐.
- 고차원 능력은 여러 하위 능력에 의존하며 예측하기 어려움.
- 예측을 위해서는 필요한 기본 요소들을 미리 식별하고, 이들이 어느 수준에 도달해야 하는지 시뮬레이션해야 함.
- 데이터의 종류와 품질도 중요하며, 모델 버전 간에 급격한 변화가 있을 수 있음.
-
측정 기준 변경에 따른 결과의 변화
- 다른 측정 기준을 사용하면, 나타나는 현상이 사라질 수 있음.
- 물 분자를 개별적으로 관찰하면 갑자기 나타나는 얼음 덩어리 대신 점진적인 결정 구조 형성을 볼 수 있음.
-
논문 제목: "Are Emergent Abilities of Large Language Models a Mirage?"
- 논문 링크: arXiv:2304.15004
-
능력의 급격한 변화에 대한 관찰
- 다른 연구에서도 능력의 급격한 도약을 발견함.
- 모델이 점진적으로 더 똑똑해지고 있을 수 있으며, 부분적인 답변에 대한 점수를 주지 않는 측정 방식으로 인해 이러한 진전을 놓칠 수 있음.
-
부분 점수 접근법과 모델 훈련
- 부분 점수를 주는 것은 좋지만, 정확한 답을 얻기 위한 훈련이 중요함.
- 모델 크기가 클수록 수렴에 도달하기 쉬움.
- 모델 크기가 증가함에 따라 능력이 갑자기 나타나는 것으로 볼 수 있음.
-
능력의 점진적 출현
- 능력이 나타나는 데 급격한 도약이나 예측 불가능성이 필요하지 않음.
- 새로운 능력은 점진적으로 나타날 수 있음.
-
대규모 언어 모델(Large Language Models, LLMs)의 한계
- LLMs는 가능성을 평가하는 엔진임.
- 단순히 LLMs의 규모를 확장하는 것만으로는 인공 일반 지능(Artificial General Intelligence, AGI)을 생성하지 못함.
-
측정 기준에 대한 혼란
- 편집 거리(edit distance)를 사용한 측정 방식이 적절하지 않을 수 있음.
- 모델이 산술을 이해하는지 테스트하는 데 이상한 방법으로 보임.
- 실제 값과 예상 값의 차이를 고려하는 것이 더 나을 수 있음.
- 논문 링크: arXiv:2206.07682