GN⁺: 2024년 LLMs에 대해 배운 것들
(simonwillison.net)Simon Willison의 2024년 LLM 관련 전체 변화들 요약
- GPT-4 한계를 완전히 넘어서다
- 일부 GPT-4 모델이 내 노트북에서 실행됨
- LLM 가격 폭락, 경쟁과 효율성이 만든 변화
- Multimodal 비전의 확산, 오디오와 비디오가 새롭게 등장
- 음성과 라이브 카메라 모드, 현실이 된 공상과학
- 프롬프트 기반 앱 생성, 이미 일상화된 기술
- 최고의 모델에 대한 무료 접근, 몇 달 만에 종료
- "에이전트", 여전히 현실화되지 않은 개념
- 평가(Evals)의 중요성
- Apple Intelligence는 실망스러우나, MLX 라이브러리는 뛰어남
- 추론 스케일링 "Reasoning" 모델의 부상
- 현재 최고의 LLM, 중국에서 $600만 미만으로 훈련되었나?
- 환경적 영향 개선
- 환경적 영향, 더욱 악화됨
- 2024년, "Slop"의 해
- 합성 학습 데이터의 놀라운 효과
- LLM 사용이 더 어려워진 2024년
- 지식의 불균형한 분포
- LLM에 대한 더 나은 비판이 필요함
# GPT-4 한계를 완전히 넘어서다
- 2023년 상황: GPT-4는 최고의 언어 모델로 평가받았으며, 다른 AI 연구소는 이를 뛰어넘지 못했음. OpenAI가 가진 기술적 비밀이 주목받았음.
- 2024년 변화: 18개 조직에서 GPT-4를 능가하는 모델 발표. 현재 Chatbot Arena 리더보드에 GPT-4-0314(2023년 3월 출시)를 뛰어넘는 70개 모델이 등록되어 있음.
- 주요 모델과 기술적 발전
- Google Gemini 1.5 Pro: 2024년 2월 출시
- GPT-4 수준 출력과 새로운 기능 제공
- 100만(후에 200만) 토큰 입력 컨텍스트 길이 지원
- 비디오 입력 기능 도입
- 장문 입력 처리로 코딩 문제 해결 및 책 전체 분석 가능
- Google I/O 2024 키노트에서 중요한 발표로 다뤄짐
- Anthropic Claude 3 시리즈:
- Claude 3 Opus: 2024년 3월 출시, 높은 성능으로 주목받음
- Claude 3.5 Sonnet: 6월 출시, 10월 22일 업그레이드 버전 발표
- 업그레이드 후에도 버전 번호는 3.5로 유지, 팬들 사이에서 Claude 3.6으로 불림
- Google Gemini 1.5 Pro: 2024년 2월 출시
- 컨텍스트 길이 확장
- 2023년: 대부분의 모델이 4,096~8,192 토큰 지원. Claude 2.1은 20만 토큰으로 예외적
- 2024년: 주요 모델들이 10만 토큰 이상 지원, Google Gemini 시리즈는 최대 200만 토큰 지원
- 긴 입력 데이터를 처리해 다양한 문제 해결 가능
- 책 전체 분석이나 예제 코드 기반 문제 해결에 유리
- GPT-4를 능가한 모델과 조직
- Chatbot Arena 리더보드 기준 GPT-4-0314보다 높은 성능의 모델 보유 조직:
- Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI 등 18개 조직
- 리더보드에서 GPT-4-0314는 현재 70위권에 위치
- Chatbot Arena 리더보드 기준 GPT-4-0314보다 높은 성능의 모델 보유 조직:
# 일부 GPT-4 모델이 내 노트북에서 실행됨
- 사용 장비: 2023년 출시된 64GB RAM의 M2 MacBook Pro. 약 2년 된 장비로, 2023년 3월 처음 LLM을 실행했던 동일한 랩톱.
-
성능 변화: 초기에는 GPT-3 수준 모델을 간신히 실행했으나, 현재는 GPT-4 수준 모델도 실행 가능.
- Qwen2.5-Coder-32B: 2024년 11월, Apache 2.0 라이선스를 가진 코딩 특화 모델.
- Meta Llama 3.3 70B: 2024년 12월 출시된 GPT-4급 모델.
-
중요성: GPT-4 수준 모델이 $40,000 이상의 GPU를 장착한 데이터센터 서버가 아니라 랩톱에서도 실행 가능하다는 점에서 놀라움.
- 64GB RAM을 거의 전부 사용하기 때문에 다른 작업은 어려움.
- 모델 효율성 향상 덕분에 이러한 실행이 가능. 지난 1년간의 최적화 성과로 판단.
- 여전히 효율성을 더 개선할 여지가 많을 것으로 기대.
-
Meta Llama 3.2 모델: GPT-4급은 아니지만, 1B와 3B 크기의 모델이 작은 크기에도 불구하고 뛰어난 성능을 발휘.
- Llama 3.2 3B: 무료 MLC Chat iOS 앱으로 실행 가능.
- 2GB 미만 크기로 아이폰에서 실행 가능하며 초당 20토큰 생성 속도.
- 예제: "데이터 저널리스트가 지역 도예가와 사랑에 빠지는 넷플릭스 크리스마스 영화 줄거리" 요청 시 기본적이지만 적절한 답변 생성.
- 제목: "Love in the Clay"
- 줄거리: 주인공 Jessica가 고향 Willow Creek으로 돌아가 지역 역사와 젠트리피케이션의 영향을 조사하며 이야기가 전개됨.
- 결과물은 평범하지만 아이폰에서도 이런 작업이 가능하다는 점에서 흥미로움.
# LLM 가격 폭락, 경쟁과 효율성이 만든 변화
-
2023년 말 가격: OpenAI의 주요 모델 가격은 다음과 같았음.
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
-
2024년 가격 변화:
- OpenAI o1: $30/mTok로 가장 비싼 모델
- GPT-4o: $2.50/mTok (GPT-4 대비 12배 저렴)
- GPT-4o Mini: $0.15/mTok (GPT-3.5 대비 약 7배 저렴하면서 더 뛰어난 성능)
- Anthropic Claude 3 Haiku: $0.25/mTok (3월 출시, Anthropic의 가장 저렴한 모델)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (GPT-3.5 Turbo 대비 27배 저렴)
-
가격 하락 요인:
- 경쟁 증가: 다수의 모델 제공자가 시장에 진입하며 가격 경쟁 심화.
-
효율성 향상: 모델 학습과 추론 과정의 최적화로 에너지 소비 감소.
- 개별 프롬프트 실행의 에너지 비용 우려가 감소.
-
효율성과 환경 비용:
- 에너지 효율성 증가로 환경적 우려 감소.
- 하지만 데이터센터 구축의 환경적 영향은 여전히 문제.
-
실제 활용 비용 계산:
- Google Gemini 1.5 Flash 8B를 이용해 개인 사진 라이브러리(68,000장)의 설명 생성 비용 계산.
- 사진당 260 input tokens, 100 output tokens 필요.
- 총 17,680,000 input tokens * $0.0375/million = $0.66
- 총 6,800,000 output tokens * $0.15/million = $1.02
- 총 비용: $1.68로 68,000장의 사진 처리 가능.
- Google Gemini 1.5 Flash 8B를 이용해 개인 사진 라이브러리(68,000장)의 설명 생성 비용 계산.
-
설명 예시:
- 사진: California Academy of Sciences에서 나비 두 마리가 빨간 트레이에서 먹이 섭취.
- 생성된 설명:
- 빨간 트레이에서 두 마리의 나비가 과일을 먹고 있는 사진.
- 나비의 색상과 패턴까지 상세히 묘사.
- 비용: 약 0.0024센트, 400분의 1센트 이하.
-
2024년 가장 큰 변화 중 하나:
- 가격 하락과 에너지 비용 감소로 LLM의 유용성이 극대화되고 있음.
# Multimodal 비전의 확산, 오디오와 비디오가 새롭게 등장
-
2024년 주요 트렌드: 멀티모달 LLM(텍스트 외 이미지, 오디오, 비디오 등 다양한 입력 처리)이 일반화됨.
-
2023년 사례:
- OpenAI GPT-4 Vision: 2023년 11월 DevDay에서 출시.
- Google Gemini 1.0: 2023년 12월 7일 발표.
-
2024년 주요 출시:
- Anthropic Claude 3 시리즈: 3월 출시.
- Google Gemini 1.5 Pro: 4월 출시(이미지, 오디오, 비디오 처리 지원).
- Qwen2-VL: 9월 출시.
- Mistral Pixtral 12B: 9월 출시.
- Meta Llama 3.2: 9월 출시(11B 및 90B 비전 모델).
- OpenAI 오디오 입출력 기능: 10월 추가.
- Hugging Face SmolVLM: 11월 출시.
- Amazon Nova 이미지 및 비디오 모델: 12월 출시.
-
2023년 사례:
-
도구와 멀티모달 지원:
- 2024년 10월, 개인적으로 사용하는 LLM CLI 도구를 멀티모달 모델 지원으로 업그레이드.
- 이미지와 오디오, 비디오와 같은 첨부 파일을 처리할 수 있는 플러그인 추가.
-
멀티모달 모델의 중요성:
- LLM 개선이 느려졌다는 비판은 멀티모달 모델의 진보를 간과한 의견으로 보임.
- 이미지, 오디오, 비디오를 활용한 프롬프트 실행은 새로운 활용 가능성을 열어주는 흥미로운 발전.
# 음성과 라이브 카메라 모드, 현실이 된 공상과학
-
초기 음성 모드의 등장:
- 2023년 9월 ChatGPT 모바일 앱에서 음성 대화 기능 추가.
- Whisper(Speech-to-Text)와 tts-1(Text-to-Speech) 모델을 활용, 하지만 모델은 실제로 텍스트만 처리.
-
GPT-4o 음성 모드:
- 2024년 5월 13일 발표된 새로운 음성 모드에서 GPT-4o 모델은 진정한 멀티모달로 오디오 입력 및 자연스러운 음성 출력을 지원.
- 데모에서 Scarlett Johansson과 유사한 음성을 사용했으나 논란 후 해당 음성은 상용 제품에 포함되지 않음.
- 음성 모드 출시 지연으로 혼란이 발생했으나, 8~9월 ChatGPT Advanced Voice 모드로 단계적으로 출시됨.
- 사용 경험: 산책 중 음성 모드로 대화하며 콘텐츠의 품질이 크게 향상됨.
- OpenAI 오디오 API를 활용한 실험에서 다양한 음성 기능 확인.
-
음성 모드의 특징:
- Advanced Voice 모드는 다양한 억양 구현 가능.
- 예시: 캘리포니아 브라운 펠리컨의 두꺼운 러시아 억양으로 스페인어로 대화하도록 요청.
-
다른 회사의 멀티모달 음성 모델:
- Google Gemini: 오디오 입력 지원, ChatGPT와 유사한 음성 대화 가능.
- Amazon Nova: 음성 모드 사전 발표(Q1 2025 출시 예정).
- Google NotebookLM(2024년 9월 출시): 입력 내용을 바탕으로 두 "팟캐스트 진행자" 간 대화를 생성. 사용자 정의 명령도 가능.
-
라이브 비디오 모드의 등장:
- 2024년 12월 ChatGPT 음성 모드에서 카메라 피드 공유 기능 추가.
- 실시간으로 카메라 피드에 대해 대화 가능.
- Google Gemini도 유사한 기능을 같은 시기에 프리뷰로 제공.
-
API 접근성:
- OpenAI와 Google 모두 이러한 기능에 대한 API 제공.
- OpenAI는 12월 WebRTC API를 발표해 음성 기반 웹 앱 개발을 간소화.
# 프롬프트 기반 앱 생성, 이미 일상화된 기술
-
2023년 GPT-4 가능성:
- GPT-4를 활용해 HTML, CSS, JavaScript로 완전한 인터랙티브 앱을 생성 가능.
- React와 같은 도구도 추가 빌드 메커니즘을 통해 통합 가능.
-
2024년 Claude Artifacts 도입:
- Anthropic의 Claude 3.5 Sonnet 발표 중반에 소개된 새로운 기능.
- 사용자가 Claude 인터페이스 내에서 바로 실행 가능한 온디맨드 앱을 생성 가능.
- 예시: Claude를 통해 생성한 URL 추출 도구.
- URL을 입력하면 바로 추출된 리스트를 표시.
- Claude Artifacts로 일주일 동안 14개의 작은 도구를 제작한 경험 공유.
-
경쟁사의 유사 기능 도입:
- GitHub Spark: 2024년 10월 발표.
- Mistral Chat Canvas: 2024년 11월 추가.
- Val Town의 Steve Krause: Cerebras 모델을 사용해 초당 2,000 토큰 처리 속도로 실시간 앱 수정 구현.
- Chatbot Arena 팀: 12월에 두 모델로 동일 앱을 생성 후 투표하는 새로운 리더보드 도입.
-
나만의 프로젝트:
- Datasette 프로젝트에서 프롬프트를 이용해 사용자 정의 위젯 및 데이터 시각화를 생성하고 반복 작업 가능하게 개발 중.
- uv를 활용해 단일 Python 프로그램을 작성하는 유사 패턴 구현.
-
2025년 전망:
- 브라우저 샌드박싱 문제 해결 후, 다양한 제품에 이 기능이 기본으로 탑재될 가능성이 높음.
# 최고의 모델에 대한 무료 접근, 몇 달 만에 종료
-
2024년 초기 무료 제공:
- GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—당시 최고의 모델 3개가 대부분의 사용자에게 무료로 제공.
- OpenAI는 2024년 5월 GPT-4o를 무료로 공개.
- Claude 3.5 Sonnet은 6월 출시와 동시에 무료로 이용 가능.
- 이전까지 무료 사용자들은 주로 GPT-3.5 수준 모델에 접근 가능했으나, 이 기간 동안 고성능 LLM의 진정한 능력을 체험할 기회 제공.
-
무료 접근 종료:
- OpenAI가 ChatGPT Pro를 출시하며 무료 접근이 종료.
- ChatGPT Pro는 월 $200의 구독료를 요구하며, 가장 강력한 모델인 o1 Pro에 접근 가능.
-
미래 전망:
- o1 시리즈의 주요 특징은 더 많은 계산 리소스를 활용해 더 나은 결과를 제공하는 것.
- 이러한 비용 구조로 인해 최상의 모델에 대한 무료 접근 시대가 재도래할 가능성은 낮음.
# "에이전트", 여전히 현실화되지 않은 개념
-
용어의 모호성:
- "에이전트"라는 용어는 단일하고 명확한 정의가 부족하며, 사용자마다 의미가 다름.
- 일반적으로 두 가지 카테고리로 나뉨:
- 사용자를 대신해 작업을 수행하는 여행사 모델과 같은 에이전트.
- 도구에 접근해 반복 작업을 수행하며 문제를 해결하는 LLM 기반 에이전트.
- "자율성(autonomy)"이라는 용어도 자주 사용되지만, 명확한 정의 없이 혼란을 가중.
-
개념적 한계:
- "에이전트"는 여전히 "곧 등장할" 것처럼 보이는 개념에 머물러 있음.
- 211개의 정의를 수집(Twitter에서 조사)하고 Gemini-exp-1206 모델을 통해 요약했으나, 여전히 명확한 합의에 이르지 못함.
-
유용성에 대한 회의:
- 에이전트의 실용성은 LLM의 "쉽게 속는(gullibility)" 성향에서 기인한 문제로 제한됨.
- 진실과 허구를 구분하지 못하면 여행사, 디지털 비서, 연구 도구 등은 의미 있는 결정을 내리기 어려움.
- 예시: Google 검색이 가상의 팬 픽션 위키에서 "Encanto 2"라는 존재하지 않는 영화를 잘못 요약한 사례.
-
프롬프트 주입(prompt injection):
- 쉽게 속는 성향에서 비롯된 문제로, 2022년 9월부터 논의되었으나 2024년에도 큰 진전이 없음.
-
결론:
- 에이전트의 대중적 아이디어는 사실상 AGI(인공지능 일반) 자체에 의존하는 것으로 보임.
- 신뢰성을 확보한 모델 개발은 매우 어려운 과제로 남아 있음.
# 평가(Evals)의 중요성
-
평가가 핵심 기술로 부상:
- 2024년, LLM 기반 시스템에서 좋은 자동 평가(Evals) 작성이 가장 중요한 기술로 부각됨.
- 강력한 평가 도구를 갖추면 새로운 모델을 빠르게 도입하고, 더 나은 반복 작업과 신뢰할 수 있는 기능 개발 가능.
-
Anthropic의 접근법:
- Amanda Askell: 좋은 시스템 프롬프트의 비결은 테스트 기반 개발.
- "시스템 프롬프트를 적고 테스트를 찾는 것이 아니라, 테스트를 작성하고 이를 통과할 시스템 프롬프트를 찾는 것."
- Claude 개발에서 이런 접근법이 핵심 역할.
- Amanda Askell: 좋은 시스템 프롬프트의 비결은 테스트 기반 개발.
-
Vercel의 사례:
- Malte Ubl: 처음에는 프롬프트를 보호하기 위해 복잡한 전처리 및 후처리 방식을 사용.
- 이후 프롬프트의 단순성과 평가, 모델, UX가 더 중요하다는 사실을 깨닫고 방향 전환.
- "평가 없는 프롬프트는 설명서 없는 고장난 기계와 같음."
- Malte Ubl: 처음에는 프롬프트를 보호하기 위해 복잡한 전처리 및 후처리 방식을 사용.
-
개인적 탐구:
- 효과적인 평가를 구현하는 최적의 패턴을 찾기 위해 연구 중.
- 현재까지 평가는 중요성이 강조되지만, 구체적인 구현 방법에 대한 훌륭한 가이드 부족.
- 개인적으로 "자전거를 타는 SVG 펠리컨" 벤치마크를 사용했지만, 이는 제대로 된 평가 도구의 대체물이 아님.
# Apple Intelligence는 실망스러우나, MLX 라이브러리는 뛰어남
-
Mac에서 ML 사용 경험 개선:
- 64GB RAM을 가진 Mac은 CPU와 GPU가 메모리를 공유할 수 있어 이론적으로 모델 실행에 적합.
- 그러나 NVIDIA CUDA를 우선시하는 모델 및 라이브러리로 인해 Mac 사용자는 제약이 많았음.
-
MLX 라이브러리의 혁신:
- Apple의 MLX(Apple Silicon용 배열 프레임워크)는 Mac에서 뛰어난 성능으로 다양한 MLX 호환 모델 실행 가능.
- mlx-lm Python: MLX 호환 모델을 지원하며 성능 우수.
- Hugging Face의 mlx-community: 필요한 형식으로 변환된 1,000개 이상의 모델 제공.
- Prince Canuma의 mlx-vlm 프로젝트: 비전 LLM을 Apple Silicon에서 실행 가능.
- 최근 Qwen의 QvQ 실행에 사용.
-
Apple Intelligence의 실망감:
- 2024년 6월 발표 당시, 사용자 프라이버시를 중시하는 LLM 응용에 초점을 맞췄다는 점에서 기대를 모음.
- 실제 출시된 기능들은 미약하며, 최첨단 LLM의 능력과 비교해 부족함.
- 예시:
- 뉴스 헤드라인을 잘못 요약하는 알림 요약.
- 유용성이 떨어지는 글쓰기 보조 도구.
- 다만 Genmoji는 약간 재미있는 기능으로 평가.
- 예시:
-
Mac 사용자의 변화된 입장:
- MLX와 같은 도구 덕분에 Mac 플랫폼 선택에 대한 만족도가 크게 상승.
- 특히 Apple Silicon에서의 LLM 실행 환경이 개선됨.
# 추론 스케일링 "Reasoning" 모델의 부상
-
새로운 LLM 형태의 등장:
- 2024년 4분기에 OpenAI의 o1 모델(o1-preview, o1-mini)이 9월 12일 처음 발표됨.
- 모델이 문제를 "생각"하면서 풀도록 설계된 체인-오브-생각(chain-of-thought) 기법을 더욱 발전시킨 형태.
-
o1 모델의 특징:
- "Reasoning tokens"를 사용해 문제를 추론하며, 이 과정은 사용자가 직접 보지는 못하지만 ChatGPT UI에서 요약된 형태로 확인 가능.
- 훈련 시점의 계산 능력 증대뿐만 아니라 추론 시 더 많은 계산을 활용하여 성능 향상 가능.
-
모델의 확장 가능성:
- 더 어려운 문제를 처리하기 위해 추론 시점에 추가 계산 자원을 사용.
- 이는 기존 LLM 모델 아키텍처를 확장하는 새로운 방식.
-
후속 모델 o3:
- 2024년 12월 20일 발표, ARC-AGI 벤치마크에서 인상적인 결과 기록.
- $1,000,000 이상의 계산 비용이 소요되었을 가능성 있음.
- 2025년 1월 출시 예정. 극도로 높은 계산 비용으로 인해 실제 활용은 제한적일 것으로 보임.
-
다른 주요 모델 발표:
- Google: 12월 19일, gemini-2.0-flash-thinking-exp 출시.
-
Alibaba: 11월 28일, QwQ 모델(Apache 2.0 라이선스) 발표, 로컬 실행 가능.
- 12월 24일 비전 추론 모델 QvQ 발표, 로컬에서도 실행.
- DeepSeek: 11월 20일, DeepSeek-R1-Lite-Preview 모델을 채팅 인터페이스로 제공.
-
관련 연구와 예상:
- Anthropic과 Meta는 아직 공식적인 모델 발표는 없으나, 유사한 추론 스케일링 모델을 개발 중일 가능성 높음.
- Meta는 12월에 "Training Large Language Models to Reason in a Continuous Latent Space"라는 관련 논문 발표.
- 추가 정보: Arvind Narayanan과 Sayash Kapoor의 Is AI progress slowing down? 추천.
# 현재 최고의 LLM, 중국에서 $600만 미만으로 훈련되었나?
-
주요 뉴스:
- 2024년 크리스마스에 DeepSeek v3가 Hugging Face에 공개됨(README 파일 없이 게시, 다음 날 문서와 논문 추가).
- 685B 파라미터의 대규모 모델로, Meta의 Llama 3.1 405B보다 훨씬 큼.
- 공개 라이선스로 제공되는 모델 중 가장 큰 규모.
-
성능:
- Claude 3.5 Sonnet과 유사한 벤치마크 성능.
- Chatbot Arena에서 7위로, Gemini 2.0 및 OpenAI 4o/o1 모델 바로 뒤를 기록.
- 공개 라이선스 모델 중 최고 순위.
-
훈련 비용:
- DeepSeek v3: 2,788,000 H800 GPU 시간으로 약 $5,576,000 소요.
- Meta Llama 3.1 405B: 30,840,000 GPU 시간으로 DeepSeek v3보다 11배 많은 비용을 사용했지만, 벤치마크 성능은 약간 낮음.
-
중국의 GPU 수출 규제 영향:
- 미국의 GPU 수출 규제가 훈련 최적화를 크게 자극한 것으로 보임.
- DeepSeek v3의 비용 효율적 훈련은 이러한 최적화의 결과로 평가됨.
# 환경적 영향 개선
-
효율성 향상으로 에너지 소비 감소:
- 모델의 효율성이 크게 증가하면서 프롬프트 실행 시 에너지 사용량과 환경적 영향이 지난 몇 년간 급감.
- OpenAI는 GPT-3 시절 대비 프롬프트 비용을 100배 낮춤.
- Google Gemini와 Amazon Nova와 같은 저비용 모델 제공자들도 손실 없이 프롬프트 운영 가능.
-
개별 사용자 관점:
- 대부분의 프롬프트 실행으로 인한 에너지 소비는 실제로 미미한 수준.
- 자동차로 짧은 거리를 운전하거나 YouTube 동영상을 시청하는 것보다 환경적 영향을 덜 미칠 가능성 있음.
-
훈련 비용 감소:
- DeepSeek v3의 $600만 이하 훈련 비용은 훈련 비용이 계속해서 감소할 가능성을 보여줌.
- 더 적은 자원으로 효율적인 훈련이 가능해짐.
-
비효율적 모델과 비교:
- Llama 3의 최대 모델 훈련 비용은 뉴욕에서 런던까지의 승객 만석 상업 항공편 몇 대의 에너지 비용과 비슷.
- 하지만 훈련 완료 후에는 추가 비용 없이 수백만 명이 사용할 수 있어 장기적으로 효율적.
# 환경적 영향, 더욱 악화됨
-
대규모 데이터센터 구축 경쟁:
- Google, Meta, Microsoft, Amazon 등 주요 기업들이 미래 모델 수요를 충족하기 위해 수십억 달러를 투자하여 데이터센터를 구축 중.
- 이러한 인프라 확장은 전력망과 환경에 큰 영향을 미침.
- 새로운 원자력 발전소 건설 논의도 있지만, 이는 수십 년이 걸릴 수 있음.
-
인프라 필요성 논란:
- DeepSeek v3의 $600만 훈련 비용과 LLM 가격 하락은 이러한 확장이 반드시 필요하지 않을 수도 있음을 시사.
- 그러나 "인프라를 구축하지 않아 나중에 잘못된 결정으로 판명"될 위험을 감수할 경영자는 거의 없음.
-
역사적 유사성:
- 1800년대 전 세계적으로 철도망이 구축되던 시기의 사례와 비교 가능.
- 막대한 투자와 환경적 영향을 수반했으며, 많은 노선이 중복되어 불필요한 결과를 초래.
- 결과적으로 여러 금융 위기를 유발:
- 1873년 공황, 1893년 공황, 1901년 공황, 영국의 철도 열풍(Railway Mania).
- 인프라는 남았지만 대규모 파산과 환경 피해도 동반.
-
현재와의 교훈:
- 데이터센터 경쟁이 유용한 인프라를 남길 수 있지만, 불필요한 확장과 환경적 피해를 초래할 위험 존재.
# 2024년, "Slop"의 해
-
"Slop"의 정의:
- AI가 생성한 원치 않고 검토되지 않은 콘텐츠를 지칭하는 용어로 자리 잡음.
- "스팸"이 원치 않는 이메일을 의미하게 된 것처럼, "슬랍"도 사전에 등재될 정도로 널리 사용됨.
-
용어의 기원:
- @deepfates의 트윗에서 시작된 논의:
- "실시간으로 '슬랍'이 하나의 용어로 자리 잡아가는 중."
- 2024년 5월, 해당 개념을 확장하며 "요청되지 않고 검토되지 않은 AI 생성 콘텐츠"로 정의.
- @deepfates의 트윗에서 시작된 논의:
-
미디어 반응:
- NY Times와 Guardian에서 "slop" 관련 인터뷰 인용:
- "현대 AI에 대해 간단히 말할 수 있는 용어가 필요하다. ‘그 이메일 무시해, 스팸이야.’와 ‘그 기사 무시해, 슬랍이야.’는 모두 유용한 교훈이다."
- NY Times와 Guardian에서 "slop" 관련 인터뷰 인용:
-
슬랍의 중요성:
- 생성형 AI를 잘못 사용하는 방식을 간결히 표현하는 데 유용.
- AI가 효율적이고 책임 있게 사용되도록 돕는 데 기여.
-
2024년의 문화적 영향:
- "Slop"은 옥스퍼드 선정 올해의 단어 후보에 올랐으나 "brain rot"에 밀려 선정되지 못함.
# 합성 학습 데이터의 놀라운 효과
-
"모델 붕괴" 개념:
- 2023년 5월 논문 The Curse of Recursion에서 처음 언급, 2024년 7월 Nature에서 더 주목받음.
- 주장: AI 생성 콘텐츠가 인터넷에 넘쳐나면 모델이 자신의 출력물을 반복적으로 학습하며 성능이 저하될 것.
- 현실: 이러한 붕괴는 발생하지 않았으며, 대신 합성 데이터를 활용한 모델 훈련이 점점 일반화되고 있음.
-
합성 데이터의 장점:
-
Phi-4 기술 보고서에서 설명:
- 합성 데이터는 유기적 데이터의 대체품이 아닌, 다음과 같은 직접적인 이점을 제공:
-
구조적이고 점진적인 학습:
- 유기적 데이터는 토큰 간 관계가 복잡하고 간접적이어서 학습이 어려움.
- 반면, 합성 데이터는 언어 모델이 이전 토큰을 기반으로 생성하기 때문에 추론 패턴을 더 쉽게 학습 가능.
- 학습 과정이 더 체계적이고 예측 가능.
-
구조적이고 점진적인 학습:
- 합성 데이터는 유기적 데이터의 대체품이 아닌, 다음과 같은 직접적인 이점을 제공:
-
Phi-4 기술 보고서에서 설명:
-
큰 모델이 작은 모델을 돕는 사례:
- 대규모 모델이 더 작은 모델을 위해 합성 데이터를 생성:
- DeepSeek v3: DeepSeek-R1이 생성한 "추론" 데이터를 사용.
- Meta Llama 3.3 70B: 2,500만 개 이상의 합성 예제로 파인튜닝.
- 대규모 모델이 더 작은 모델을 위해 합성 데이터를 생성:
-
데이터 설계의 중요성:
- LLM 훈련에서 데이터 설계가 가장 중요한 요소로 부상.
- 과거처럼 인터넷의 전체 데이터를 무분별하게 긁어모아 학습시키는 방식은 더 이상 사용되지 않음.
# LLM 사용이 더 어려워진 2024년
-
LLM은 복잡한 도구:
- 겉으로는 간단해 보이지만 실제로는 깊은 이해와 경험이 필요한 "파워 유저 도구".
- "체인톱처럼 복잡한 도구가 부엌칼처럼 보이도록 위장되어 있음"이라는 비유로 설명.
-
2024년의 문제 악화:
- 모델은 더 강력해졌지만, 여전히 기존의 한계와 제한 사항을 가짐.
- 다양한 시스템이 도입되며, 각기 다른 도구(Python, JavaScript, 웹 검색, 이미지 생성 등)를 지원.
- 사용자는 각 도구의 가능성과 한계를 이해해야 효과적으로 사용할 수 있음.
-
시스템 간의 복잡성 증가:
- 예: ChatGPT에서 두 가지 방식으로 Python 실행 가능.
- 외부 API와 통신하는 Claude Artifact를 만들려면 CSP 및 CORS HTTP 헤더에 대한 이해 필요.
- OpenAI의 o1은 제한된 기능으로 실행되지만, GPT-4o는 웹 검색 및 코드 인터프리터를 지원.
- 동일한 ChatGPT UI에서 두 모델의 기능 차이를 이해해야 함.
-
사용자 경험의 한계:
- LLM 기본 채팅 UI는 초보자를 Linux 터미널에 떨어뜨린 것과 같은 사용자 경험 제공.
- 많은 사용자가 LLM의 작동 방식과 가능성에 대한 잘못된 정신 모델을 개발.
- 예: ChatGPT 스크린샷을 논쟁 증거로 사용하는 비합리적인 사례 증가.
-
이중적인 문제:
- 오용: LLM의 불완전함에도 불구하고 이를 만능 도구로 오해하는 사용자.
- 기피: 잘 알고 있는 사람들조차도 LLM의 결함으로 인해 사용을 완전히 포기.
- LLM을 효과적으로 활용하려면 불완전하면서도 강력한 기술과 협력하는 능력이 필수적.
-
교육 콘텐츠의 필요성:
- 사용자 교육이 중요하지만, 현재는 부족한 상황.
- AI 관련 과장된 Twitter 스레드에 의존하는 대신, 보다 신뢰할 수 있는 교육 자료 개발 필요.
# 지식의 불균형한 분포
-
알려진 것과 알려지지 않은 것:
- 대부분의 사람들은 ChatGPT를 알고 있지만, Claude에 대해 들어본 사람은 극히 적음.
- 이 분야를 적극적으로 따라가는 사람들과 나머지 99% 사이의 지식 격차는 매우 큼.
-
빠른 변화 속도:
- 기술 변화의 속도가 지식 격차를 더욱 심화.
- 최근 한 달 동안 라이브 인터페이스가 도입:
- 휴대폰 카메라로 무언가를 가리키며 음성으로 대화 가능.
- 산타클로스 역할을 흉내내게 하는 기능도 선택 가능.
- 심지어 자칭 기술 애호가들조차 이러한 기능을 시도해보지 않은 경우가 많음.
-
사회적 영향과 필요성:
- 이러한 기술이 현재와 미래의 사회에 미칠 영향을 고려할 때, 지식 격차의 크기는 건강하지 않음.
- 이를 개선하기 위한 더 많은 노력이 필요.
# LLM에 대한 더 나은 비판이 필요함
-
기술에 대한 반감:
- Mastodon, Bluesky, Lobste.rs, Hacker News 등 일부 커뮤니티에서 "LLM은 유용하다"는 의견만으로도 논쟁이 발생.
- 기술에 반감을 갖는 이유:
- 환경적 영향.
- 훈련 데이터의 윤리적 문제.
- 신뢰성 부족.
- 부정적인 활용 사례.
- 직업에 미칠 잠재적 영향.
-
비판의 필요성:
- LLM은 비판을 받아 마땅하며, 문제를 논의하고 해결책을 찾으며, 책임 있는 사용 방식을 교육하는 것이 중요.
- 긍정적 활용이 부정적 영향을 능가하도록 돕는 것이 목표.
-
회의적 관점의 가치:
- 과도한 과대광고(hype)는 지난 2년간 문제를 악화시킴:
- 허위 정보와 과장된 기대감이 만연.
- 잘못된 결정이 빈번하게 내려짐.
- 비판적 사고는 이 기술을 올바르게 이해하고 활용하는 데 필수적.
- 과도한 과대광고(hype)는 지난 2년간 문제를 악화시킴:
-
결정권자와의 대화:
- 도구의 좋은 활용 사례를 인정하면서, 직관적이지 않은 함정을 피하는 방법을 설명해야 함.
- 좋은 활용 사례가 존재하지 않는다고 주장하는 것은 기술의 잠재적 가치를 간과하는 것.
-
올바른 메시지 전달:
- "환경적으로 파괴적이고 항상 거짓말을 하는 표절 기계"라는 단편적 비판은 문제를 해결하는 데 도움이 되지 않음.
- LLM의 진정한 가치를 발견하고 실현하는 데는 직관적이지 않은 가이드와 교육이 필요.
-
책임감 있는 역할:
- 이 기술을 이해하는 사람들은 다른 사람들이 올바르게 활용할 수 있도록 돕는 책임을 가짐.
Hacker News 의견
-
많은 사람들이 ChatGPT 4를 사용하면서 LLMs가 쓸모없다고 생각하는 경향이 있음. 그러나 Claude Sonnet 3.5는 여전히 유용할 수 있음
- LLMs의 유용성은 사용자의 커뮤니케이션 능력에 크게 의존함
- 정확한 질문과 배경 설명을 통해 LLMs의 성능을 극대화할 수 있음
- 지루한 작업을 빠르게 처리하는 데 유용함
-
"에이전트"라는 용어는 명확한 의미가 없어 혼란을 초래함
- "Agentic"이라는 유행어는 불쾌감을 줄 수 있음
-
LLM 가격 하락에 대한 우려가 있음
- Gemini의 무료 티어는 여전히 매력적이지만 신뢰하기 어려움
- 2025년 상반기에 가격이 다시 상승할 가능성에 대해 걱정함
-
"에이전트" 개념은 아직 명확히 정의되지 않음
- 진정한 "에이전트"는 자율성을 포함해야 한다고 생각함
-
LLMs 사용이 더 어려워졌다는 주장에 동의하지 않음
- 옵션이 많아졌지만 사용 자체가 어려워진 것은 아님
- 초보자에게는 여전히 동일한 지침이 제공됨
-
무엇이 "좋은" 것인지 판단하기 어려워졌음
- 벤치마크 조작이 많아져서 혼란스러움
- 개인적으로 테스트 프레임워크를 구축하려고 함
-
LLMs의 결함 때문에 사용을 포기한 사람들이 있음
- LLMs를 최대한 활용하려면 불안정하면서도 강력한 기술과 함께 작업하는 방법을 배워야 함
-
일부 GPT-4 모델은 노트북에서도 실행 가능함
- 이는 대규모 데이터 센터가 필요하지 않음을 의미함
- OpenAI의 가치는 과대평가되었을 수 있음
-
Apple의 64GB DRAM 사용이 특별한 이유를 이해하지 못함
- 데이터 센터가 대부분의 RAM 제조 용량을 차지하고 있음에도 불구하고 Apple이 어떻게 DRAM을 공급하는지 궁금함
-
Google Gemini와 Amazon Nova의 비용 구조에 대한 혼란이 있음
- 에너지 비용보다 낮은 가격으로 제공한다는 주장과 그렇지 않다는 주장이 있음
-
LLMs는 일상적인 작업에 유용하지 않다는 의견이 있음
- 새로운 LLM 모델은 과대평가된 개선일 뿐이라는 주장
-
이 산업의 도덕성과 우수성 기준이 낮다는 것을 알게 되었음
-
"추론"을 잠재적/신경 공간으로 밀어넣는 현재 상태에 대한 질문이 있음
- 모델이 자체적으로 대화하는 것이 최종 출력과 관련이 적어 비효율적임