"LLMs의 '급발진' 능력, 사실은 점진적이고 예측 가능하게 발달한다 – 연구 결과"

(quantamagazine.org)

1P by GN⁺ 2024-03-26 | ★ favorite | 댓글 1개

대규모 언어 모델의 예상치 못한 기술 학습 속도는 얼마나 빠른가?

대규모 언어 모델(Large Language Models, LLMs)의 능력에 대한 새로운 연구는 이른바 '급발진 능력'이 실제로는 점진적이고 예측 가능하게 발달한다고 제안함.
연구자들은 이러한 능력을 '급발진' 행동으로 묘사했으며, 이는 물리학에서 액체가 얼음으로 변하는 상전이와 유사하다고 비유함.
그러나 스탠포드 대학의 연구진은 이러한 능력의 갑작스러운 출현이 연구자들이 LLM의 성능을 측정하는 방식의 결과일 뿐이라고 주장함.

대규모 언어 모델의 성능 측정

대규모 언어 모델은 방대한 텍스트 데이터셋을 분석하여 자주 함께 나타나는 단어들 사이의 연결을 찾아냄.
모델의 크기는 파라미터의 수로 측정되며, 파라미터가 많을수록 LLM은 더 많은 연결을 찾을 수 있음.
GPT-2는 15억 개의 파라미터를 가졌고, GPT-3.5는 3,500억 개, GPT-4는 1.75조 개의 파라미터를 사용함.

예상치 못한 능력의 점진적 발달

스탠포드 대학의 연구진은 LLM의 능력이 갑작스럽고 예측 불가능하게 나타나는 것이 아니라 점진적이고 예측 가능하다고 주장함.
예를 들어, 세 자리 수 덧셈에서 GPT-3과 LAMDA는 파라미터가 적을 때 정확한 계산을 실패했지만, 파라미터가 증가하면서 갑자기 덧셈을 할 수 있게 됨.
연구진은 정확도만으로 LLM을 평가하는 대신 부분 점수를 주는 측정 방식을 사용하여 LLM이 점진적으로 올바른 숫자의 순서를 예측하는 것을 발견함.

다른 과학자들의 견해

다른 과학자들은 이 연구가 '급발진' 개념을 완전히 해소하지는 않는다고 지적함.
어떤 측정 기준이나 언제 LLM의 성능이 급격히 향상될지 예측하는 방법은 여전히 불확실함.
일부 과학자들은 이전의 '급발진' 보고가 정확했다고 주장하며, 산술과 같은 능력에 있어서는 정답이 전부라고 강조함.

GN⁺의 의견

이 연구는 인공지능의 안전성과 잠재적 위험에 대한 논의에 중요한 영향을 미칠 수 있음. LLM의 능력이 예측 가능하게 발달한다면, 이는 AI의 안전한 개발과 관리에 있어 중요한 지표가 될 수 있음.
연구 결과가 실제 AI 개발에 적용될 때, 개발자들은 성능 측정 방식의 중요성을 인식하고 더 정교한 평가 방법을 고안해야 할 필요성이 있음.
이 기사는 AI 연구의 최전선에서 일어나는 변화와 발전을 이해하는 데 도움을 줄 수 있으며, 특히 AI 모델의 성능 평가 방식에 대한 새로운 시각을 제공함.
비판적인 관점에서 볼 때, 연구 결과가 모든 LLM의 성능 향상을 설명하지는 못하며, 더 크고 복잡한 모델에서는 '급발진' 현상이 여전히 발생할 수 있음을 인정해야 함.
이 기술과 관련하여, OpenAI의 GPT 시리즈는 이미 시장에서 널리 사용되고 있으며, 이 연구는 GPT와 유사한 다른 LLMs의 개발에 영감을 줄 수 있음.

▲

GN⁺ 2024-03-26 [-]

Hacker News 의견

연구와 관련된 몇 가지 문제점
- 연구에서 사용된 평가 방식이 기술력을 제대로 반영하지 못할 수 있음.
- 저자들의 측정 기준에도 불구하고 몇 가지 잠재적인 능력이 나타남.
- 과거 데이터를 바탕으로 결과를 예측하는 것은 쉽지만, 실제로는 예상치 못한 결과가 나타난 것이 중요한 현상임.
- 이 논문에는 가치가 있으나 결론을 지나치게 확장해서는 안 됨.
미래 예측의 어려움
- 미래를 예측하는 것은 이미 일어난 후에야 쉬워짐.
- 고차원 능력은 여러 하위 능력에 의존하며 예측하기 어려움.
- 예측을 위해서는 필요한 기본 요소들을 미리 식별하고, 이들이 어느 수준에 도달해야 하는지 시뮬레이션해야 함.
- 데이터의 종류와 품질도 중요하며, 모델 버전 간에 급격한 변화가 있을 수 있음.
측정 기준 변경에 따른 결과의 변화
- 다른 측정 기준을 사용하면, 나타나는 현상이 사라질 수 있음.
- 물 분자를 개별적으로 관찰하면 갑자기 나타나는 얼음 덩어리 대신 점진적인 결정 구조 형성을 볼 수 있음.
논문 제목: "Are Emergent Abilities of Large Language Models a Mirage?"
- 논문 링크: arXiv:2304.15004
능력의 급격한 변화에 대한 관찰
- 다른 연구에서도 능력의 급격한 도약을 발견함.
- 모델이 점진적으로 더 똑똑해지고 있을 수 있으며, 부분적인 답변에 대한 점수를 주지 않는 측정 방식으로 인해 이러한 진전을 놓칠 수 있음.
부분 점수 접근법과 모델 훈련
- 부분 점수를 주는 것은 좋지만, 정확한 답을 얻기 위한 훈련이 중요함.
- 모델 크기가 클수록 수렴에 도달하기 쉬움.
- 모델 크기가 증가함에 따라 능력이 갑자기 나타나는 것으로 볼 수 있음.
능력의 점진적 출현
- 능력이 나타나는 데 급격한 도약이나 예측 불가능성이 필요하지 않음.
- 새로운 능력은 점진적으로 나타날 수 있음.
대규모 언어 모델(Large Language Models, LLMs)의 한계
- LLMs는 가능성을 평가하는 엔진임.
- 단순히 LLMs의 규모를 확장하는 것만으로는 인공 일반 지능(Artificial General Intelligence, AGI)을 생성하지 못함.
측정 기준에 대한 혼란
- 편집 거리(edit distance)를 사용한 측정 방식이 적절하지 않을 수 있음.
- 모델이 산술을 이해하는지 테스트하는 데 이상한 방법으로 보임.
- 실제 값과 예상 값의 차이를 고려하는 것이 더 나을 수 있음.
- 논문 링크: arXiv:2206.07682

답변달기