22P by neo 9일전 | favorite | 댓글 1개

Simon Willison의 2024년 LLM 관련 전체 변화들 요약

  • GPT-4 한계를 완전히 넘어서다
  • 일부 GPT-4 모델이 내 노트북에서 실행됨
  • LLM 가격 폭락, 경쟁과 효율성이 만든 변화
  • Multimodal 비전의 확산, 오디오와 비디오가 새롭게 등장
  • 음성과 라이브 카메라 모드, 현실이 된 공상과학
  • 프롬프트 기반 앱 생성, 이미 일상화된 기술
  • 최고의 모델에 대한 무료 접근, 몇 달 만에 종료
  • "에이전트", 여전히 현실화되지 않은 개념
  • 평가(Evals)의 중요성
  • Apple Intelligence는 실망스러우나, MLX 라이브러리는 뛰어남
  • 추론 스케일링 "Reasoning" 모델의 부상
  • 현재 최고의 LLM, 중국에서 $600만 미만으로 훈련되었나?
  • 환경적 영향 개선
  • 환경적 영향, 더욱 악화됨
  • 2024년, "Slop"의 해
  • 합성 학습 데이터의 놀라운 효과
  • LLM 사용이 더 어려워진 2024년
  • 지식의 불균형한 분포
  • LLM에 대한 더 나은 비판이 필요함

# GPT-4 한계를 완전히 넘어서다

  • 2023년 상황: GPT-4는 최고의 언어 모델로 평가받았으며, 다른 AI 연구소는 이를 뛰어넘지 못했음. OpenAI가 가진 기술적 비밀이 주목받았음.
  • 2024년 변화: 18개 조직에서 GPT-4를 능가하는 모델 발표. 현재 Chatbot Arena 리더보드에 GPT-4-0314(2023년 3월 출시)를 뛰어넘는 70개 모델이 등록되어 있음.
  • 주요 모델과 기술적 발전
    • Google Gemini 1.5 Pro: 2024년 2월 출시
      • GPT-4 수준 출력과 새로운 기능 제공
      • 100만(후에 200만) 토큰 입력 컨텍스트 길이 지원
      • 비디오 입력 기능 도입
      • 장문 입력 처리로 코딩 문제 해결 및 책 전체 분석 가능
      • Google I/O 2024 키노트에서 중요한 발표로 다뤄짐
    • Anthropic Claude 3 시리즈:
      • Claude 3 Opus: 2024년 3월 출시, 높은 성능으로 주목받음
      • Claude 3.5 Sonnet: 6월 출시, 10월 22일 업그레이드 버전 발표
      • 업그레이드 후에도 버전 번호는 3.5로 유지, 팬들 사이에서 Claude 3.6으로 불림
  • 컨텍스트 길이 확장
    • 2023년: 대부분의 모델이 4,096~8,192 토큰 지원. Claude 2.1은 20만 토큰으로 예외적
    • 2024년: 주요 모델들이 10만 토큰 이상 지원, Google Gemini 시리즈는 최대 200만 토큰 지원
    • 긴 입력 데이터를 처리해 다양한 문제 해결 가능
    • 책 전체 분석이나 예제 코드 기반 문제 해결에 유리
  • GPT-4를 능가한 모델과 조직
    • Chatbot Arena 리더보드 기준 GPT-4-0314보다 높은 성능의 모델 보유 조직:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI 등 18개 조직
    • 리더보드에서 GPT-4-0314는 현재 70위권에 위치

# 일부 GPT-4 모델이 내 노트북에서 실행됨

  • 사용 장비: 2023년 출시된 64GB RAM의 M2 MacBook Pro. 약 2년 된 장비로, 2023년 3월 처음 LLM을 실행했던 동일한 랩톱.
  • 성능 변화: 초기에는 GPT-3 수준 모델을 간신히 실행했으나, 현재는 GPT-4 수준 모델도 실행 가능.
    • Qwen2.5-Coder-32B: 2024년 11월, Apache 2.0 라이선스를 가진 코딩 특화 모델.
    • Meta Llama 3.3 70B: 2024년 12월 출시된 GPT-4급 모델.
  • 중요성: GPT-4 수준 모델이 $40,000 이상의 GPU를 장착한 데이터센터 서버가 아니라 랩톱에서도 실행 가능하다는 점에서 놀라움.
    • 64GB RAM을 거의 전부 사용하기 때문에 다른 작업은 어려움.
    • 모델 효율성 향상 덕분에 이러한 실행이 가능. 지난 1년간의 최적화 성과로 판단.
    • 여전히 효율성을 더 개선할 여지가 많을 것으로 기대.
  • Meta Llama 3.2 모델: GPT-4급은 아니지만, 1B와 3B 크기의 모델이 작은 크기에도 불구하고 뛰어난 성능을 발휘.
    • Llama 3.2 3B: 무료 MLC Chat iOS 앱으로 실행 가능.
    • 2GB 미만 크기로 아이폰에서 실행 가능하며 초당 20토큰 생성 속도.
    • 예제: "데이터 저널리스트가 지역 도예가와 사랑에 빠지는 넷플릭스 크리스마스 영화 줄거리" 요청 시 기본적이지만 적절한 답변 생성.
      • 제목: "Love in the Clay"
      • 줄거리: 주인공 Jessica가 고향 Willow Creek으로 돌아가 지역 역사와 젠트리피케이션의 영향을 조사하며 이야기가 전개됨.
    • 결과물은 평범하지만 아이폰에서도 이런 작업이 가능하다는 점에서 흥미로움.

# LLM 가격 폭락, 경쟁과 효율성이 만든 변화

  • 2023년 말 가격: OpenAI의 주요 모델 가격은 다음과 같았음.
    • GPT-4: $30/million input tokens
    • GPT-4 Turbo: $10/mTok
    • GPT-3.5 Turbo: $1/mTok
  • 2024년 가격 변화:
    • OpenAI o1: $30/mTok로 가장 비싼 모델
    • GPT-4o: $2.50/mTok (GPT-4 대비 12배 저렴)
    • GPT-4o Mini: $0.15/mTok (GPT-3.5 대비 약 7배 저렴하면서 더 뛰어난 성능)
    • Anthropic Claude 3 Haiku: $0.25/mTok (3월 출시, Anthropic의 가장 저렴한 모델)
    • Google Gemini 1.5 Flash: $0.075/mTok
    • Google Gemini 1.5 Flash 8B: $0.0375/mTok (GPT-3.5 Turbo 대비 27배 저렴)
  • 가격 하락 요인:
    • 경쟁 증가: 다수의 모델 제공자가 시장에 진입하며 가격 경쟁 심화.
    • 효율성 향상: 모델 학습과 추론 과정의 최적화로 에너지 소비 감소.
      • 개별 프롬프트 실행의 에너지 비용 우려가 감소.
  • 효율성과 환경 비용:
    • 에너지 효율성 증가로 환경적 우려 감소.
    • 하지만 데이터센터 구축의 환경적 영향은 여전히 문제.
  • 실제 활용 비용 계산:
    • Google Gemini 1.5 Flash 8B를 이용해 개인 사진 라이브러리(68,000장)의 설명 생성 비용 계산.
      • 사진당 260 input tokens, 100 output tokens 필요.
      • 총 17,680,000 input tokens * $0.0375/million = $0.66
      • 총 6,800,000 output tokens * $0.15/million = $1.02
      • 총 비용: $1.68로 68,000장의 사진 처리 가능.
  • 설명 예시:
    • 사진: California Academy of Sciences에서 나비 두 마리가 빨간 트레이에서 먹이 섭취.
    • 생성된 설명:
      • 빨간 트레이에서 두 마리의 나비가 과일을 먹고 있는 사진.
      • 나비의 색상과 패턴까지 상세히 묘사.
    • 비용: 약 0.0024센트, 400분의 1센트 이하.
  • 2024년 가장 큰 변화 중 하나:
    • 가격 하락과 에너지 비용 감소로 LLM의 유용성이 극대화되고 있음.

# Multimodal 비전의 확산, 오디오와 비디오가 새롭게 등장

  • 2024년 주요 트렌드: 멀티모달 LLM(텍스트 외 이미지, 오디오, 비디오 등 다양한 입력 처리)이 일반화됨.
    • 2023년 사례:
      • OpenAI GPT-4 Vision: 2023년 11월 DevDay에서 출시.
      • Google Gemini 1.0: 2023년 12월 7일 발표.
    • 2024년 주요 출시:
      • Anthropic Claude 3 시리즈: 3월 출시.
      • Google Gemini 1.5 Pro: 4월 출시(이미지, 오디오, 비디오 처리 지원).
      • Qwen2-VL: 9월 출시.
      • Mistral Pixtral 12B: 9월 출시.
      • Meta Llama 3.2: 9월 출시(11B 및 90B 비전 모델).
      • OpenAI 오디오 입출력 기능: 10월 추가.
      • Hugging Face SmolVLM: 11월 출시.
      • Amazon Nova 이미지 및 비디오 모델: 12월 출시.
  • 도구와 멀티모달 지원:
    • 2024년 10월, 개인적으로 사용하는 LLM CLI 도구를 멀티모달 모델 지원으로 업그레이드.
    • 이미지와 오디오, 비디오와 같은 첨부 파일을 처리할 수 있는 플러그인 추가.
  • 멀티모달 모델의 중요성:
    • LLM 개선이 느려졌다는 비판은 멀티모달 모델의 진보를 간과한 의견으로 보임.
    • 이미지, 오디오, 비디오를 활용한 프롬프트 실행은 새로운 활용 가능성을 열어주는 흥미로운 발전.

# 음성과 라이브 카메라 모드, 현실이 된 공상과학

  • 초기 음성 모드의 등장:
    • 2023년 9월 ChatGPT 모바일 앱에서 음성 대화 기능 추가.
    • Whisper(Speech-to-Text)와 tts-1(Text-to-Speech) 모델을 활용, 하지만 모델은 실제로 텍스트만 처리.
  • GPT-4o 음성 모드:
    • 2024년 5월 13일 발표된 새로운 음성 모드에서 GPT-4o 모델은 진정한 멀티모달로 오디오 입력 및 자연스러운 음성 출력을 지원.
    • 데모에서 Scarlett Johansson과 유사한 음성을 사용했으나 논란 후 해당 음성은 상용 제품에 포함되지 않음.
    • 음성 모드 출시 지연으로 혼란이 발생했으나, 8~9월 ChatGPT Advanced Voice 모드로 단계적으로 출시됨.
      • 사용 경험: 산책 중 음성 모드로 대화하며 콘텐츠의 품질이 크게 향상됨.
      • OpenAI 오디오 API를 활용한 실험에서 다양한 음성 기능 확인.
  • 음성 모드의 특징:
    • Advanced Voice 모드는 다양한 억양 구현 가능.
    • 예시: 캘리포니아 브라운 펠리컨의 두꺼운 러시아 억양으로 스페인어로 대화하도록 요청.
  • 다른 회사의 멀티모달 음성 모델:
    • Google Gemini: 오디오 입력 지원, ChatGPT와 유사한 음성 대화 가능.
    • Amazon Nova: 음성 모드 사전 발표(Q1 2025 출시 예정).
    • Google NotebookLM(2024년 9월 출시): 입력 내용을 바탕으로 두 "팟캐스트 진행자" 간 대화를 생성. 사용자 정의 명령도 가능.
  • 라이브 비디오 모드의 등장:
    • 2024년 12월 ChatGPT 음성 모드에서 카메라 피드 공유 기능 추가.
    • 실시간으로 카메라 피드에 대해 대화 가능.
    • Google Gemini도 유사한 기능을 같은 시기에 프리뷰로 제공.
  • API 접근성:
    • OpenAI와 Google 모두 이러한 기능에 대한 API 제공.
    • OpenAI는 12월 WebRTC API를 발표해 음성 기반 웹 앱 개발을 간소화.

# 프롬프트 기반 앱 생성, 이미 일상화된 기술

  • 2023년 GPT-4 가능성:
    • GPT-4를 활용해 HTML, CSS, JavaScript로 완전한 인터랙티브 앱을 생성 가능.
    • React와 같은 도구도 추가 빌드 메커니즘을 통해 통합 가능.
  • 2024년 Claude Artifacts 도입:
    • Anthropic의 Claude 3.5 Sonnet 발표 중반에 소개된 새로운 기능.
    • 사용자가 Claude 인터페이스 내에서 바로 실행 가능한 온디맨드 앱을 생성 가능.
    • 예시: Claude를 통해 생성한 URL 추출 도구.
      • URL을 입력하면 바로 추출된 리스트를 표시.
    • Claude Artifacts로 일주일 동안 14개의 작은 도구를 제작한 경험 공유.
  • 경쟁사의 유사 기능 도입:
    • GitHub Spark: 2024년 10월 발표.
    • Mistral Chat Canvas: 2024년 11월 추가.
    • Val Town의 Steve Krause: Cerebras 모델을 사용해 초당 2,000 토큰 처리 속도로 실시간 앱 수정 구현.
    • Chatbot Arena 팀: 12월에 두 모델로 동일 앱을 생성 후 투표하는 새로운 리더보드 도입.
  • 나만의 프로젝트:
    • Datasette 프로젝트에서 프롬프트를 이용해 사용자 정의 위젯 및 데이터 시각화를 생성하고 반복 작업 가능하게 개발 중.
    • uv를 활용해 단일 Python 프로그램을 작성하는 유사 패턴 구현.
  • 2025년 전망:
    • 브라우저 샌드박싱 문제 해결 후, 다양한 제품에 이 기능이 기본으로 탑재될 가능성이 높음.

# 최고의 모델에 대한 무료 접근, 몇 달 만에 종료

  • 2024년 초기 무료 제공:
    • GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—당시 최고의 모델 3개가 대부분의 사용자에게 무료로 제공.
    • OpenAI는 2024년 5월 GPT-4o를 무료로 공개.
    • Claude 3.5 Sonnet은 6월 출시와 동시에 무료로 이용 가능.
    • 이전까지 무료 사용자들은 주로 GPT-3.5 수준 모델에 접근 가능했으나, 이 기간 동안 고성능 LLM의 진정한 능력을 체험할 기회 제공.
  • 무료 접근 종료:
    • OpenAI가 ChatGPT Pro를 출시하며 무료 접근이 종료.
    • ChatGPT Pro는 월 $200의 구독료를 요구하며, 가장 강력한 모델인 o1 Pro에 접근 가능.
  • 미래 전망:
    • o1 시리즈의 주요 특징은 더 많은 계산 리소스를 활용해 더 나은 결과를 제공하는 것.
    • 이러한 비용 구조로 인해 최상의 모델에 대한 무료 접근 시대가 재도래할 가능성은 낮음.

# "에이전트", 여전히 현실화되지 않은 개념

  • 용어의 모호성:
    • "에이전트"라는 용어는 단일하고 명확한 정의가 부족하며, 사용자마다 의미가 다름.
    • 일반적으로 두 가지 카테고리로 나뉨:
      • 사용자를 대신해 작업을 수행하는 여행사 모델과 같은 에이전트.
      • 도구에 접근해 반복 작업을 수행하며 문제를 해결하는 LLM 기반 에이전트.
    • "자율성(autonomy)"이라는 용어도 자주 사용되지만, 명확한 정의 없이 혼란을 가중.
  • 개념적 한계:
    • "에이전트"는 여전히 "곧 등장할" 것처럼 보이는 개념에 머물러 있음.
    • 211개의 정의를 수집(Twitter에서 조사)하고 Gemini-exp-1206 모델을 통해 요약했으나, 여전히 명확한 합의에 이르지 못함.
  • 유용성에 대한 회의:
    • 에이전트의 실용성은 LLM의 "쉽게 속는(gullibility)" 성향에서 기인한 문제로 제한됨.
    • 진실과 허구를 구분하지 못하면 여행사, 디지털 비서, 연구 도구 등은 의미 있는 결정을 내리기 어려움.
    • 예시: Google 검색이 가상의 팬 픽션 위키에서 "Encanto 2"라는 존재하지 않는 영화를 잘못 요약한 사례.
  • 프롬프트 주입(prompt injection):
    • 쉽게 속는 성향에서 비롯된 문제로, 2022년 9월부터 논의되었으나 2024년에도 큰 진전이 없음.
  • 결론:
    • 에이전트의 대중적 아이디어는 사실상 AGI(인공지능 일반) 자체에 의존하는 것으로 보임.
    • 신뢰성을 확보한 모델 개발은 매우 어려운 과제로 남아 있음.

# 평가(Evals)의 중요성

  • 평가가 핵심 기술로 부상:
    • 2024년, LLM 기반 시스템에서 좋은 자동 평가(Evals) 작성이 가장 중요한 기술로 부각됨.
    • 강력한 평가 도구를 갖추면 새로운 모델을 빠르게 도입하고, 더 나은 반복 작업과 신뢰할 수 있는 기능 개발 가능.
  • Anthropic의 접근법:
    • Amanda Askell: 좋은 시스템 프롬프트의 비결은 테스트 기반 개발.
      • "시스템 프롬프트를 적고 테스트를 찾는 것이 아니라, 테스트를 작성하고 이를 통과할 시스템 프롬프트를 찾는 것."
    • Claude 개발에서 이런 접근법이 핵심 역할.
  • Vercel의 사례:
    • Malte Ubl: 처음에는 프롬프트를 보호하기 위해 복잡한 전처리 및 후처리 방식을 사용.
      • 이후 프롬프트의 단순성과 평가, 모델, UX가 더 중요하다는 사실을 깨닫고 방향 전환.
      • "평가 없는 프롬프트는 설명서 없는 고장난 기계와 같음."
  • 개인적 탐구:
    • 효과적인 평가를 구현하는 최적의 패턴을 찾기 위해 연구 중.
    • 현재까지 평가는 중요성이 강조되지만, 구체적인 구현 방법에 대한 훌륭한 가이드 부족.
    • 개인적으로 "자전거를 타는 SVG 펠리컨" 벤치마크를 사용했지만, 이는 제대로 된 평가 도구의 대체물이 아님.

# Apple Intelligence는 실망스러우나, MLX 라이브러리는 뛰어남

  • Mac에서 ML 사용 경험 개선:
    • 64GB RAM을 가진 Mac은 CPU와 GPU가 메모리를 공유할 수 있어 이론적으로 모델 실행에 적합.
    • 그러나 NVIDIA CUDA를 우선시하는 모델 및 라이브러리로 인해 Mac 사용자는 제약이 많았음.
  • MLX 라이브러리의 혁신:
    • Apple의 MLX(Apple Silicon용 배열 프레임워크)는 Mac에서 뛰어난 성능으로 다양한 MLX 호환 모델 실행 가능.
    • mlx-lm Python: MLX 호환 모델을 지원하며 성능 우수.
    • Hugging Face의 mlx-community: 필요한 형식으로 변환된 1,000개 이상의 모델 제공.
    • Prince Canuma의 mlx-vlm 프로젝트: 비전 LLM을 Apple Silicon에서 실행 가능.
      • 최근 Qwen의 QvQ 실행에 사용.
  • Apple Intelligence의 실망감:
    • 2024년 6월 발표 당시, 사용자 프라이버시를 중시하는 LLM 응용에 초점을 맞췄다는 점에서 기대를 모음.
    • 실제 출시된 기능들은 미약하며, 최첨단 LLM의 능력과 비교해 부족함.
      • 예시:
        • 뉴스 헤드라인을 잘못 요약하는 알림 요약.
        • 유용성이 떨어지는 글쓰기 보조 도구.
      • 다만 Genmoji는 약간 재미있는 기능으로 평가.
  • Mac 사용자의 변화된 입장:
    • MLX와 같은 도구 덕분에 Mac 플랫폼 선택에 대한 만족도가 크게 상승.
    • 특히 Apple Silicon에서의 LLM 실행 환경이 개선됨.

# 추론 스케일링 "Reasoning" 모델의 부상

  • 새로운 LLM 형태의 등장:
    • 2024년 4분기에 OpenAI의 o1 모델(o1-preview, o1-mini)이 9월 12일 처음 발표됨.
    • 모델이 문제를 "생각"하면서 풀도록 설계된 체인-오브-생각(chain-of-thought) 기법을 더욱 발전시킨 형태.
  • o1 모델의 특징:
    • "Reasoning tokens"를 사용해 문제를 추론하며, 이 과정은 사용자가 직접 보지는 못하지만 ChatGPT UI에서 요약된 형태로 확인 가능.
    • 훈련 시점의 계산 능력 증대뿐만 아니라 추론 시 더 많은 계산을 활용하여 성능 향상 가능.
  • 모델의 확장 가능성:
    • 더 어려운 문제를 처리하기 위해 추론 시점에 추가 계산 자원을 사용.
    • 이는 기존 LLM 모델 아키텍처를 확장하는 새로운 방식.
  • 후속 모델 o3:
    • 2024년 12월 20일 발표, ARC-AGI 벤치마크에서 인상적인 결과 기록.
    • $1,000,000 이상의 계산 비용이 소요되었을 가능성 있음.
    • 2025년 1월 출시 예정. 극도로 높은 계산 비용으로 인해 실제 활용은 제한적일 것으로 보임.
  • 다른 주요 모델 발표:
    • Google: 12월 19일, gemini-2.0-flash-thinking-exp 출시.
    • Alibaba: 11월 28일, QwQ 모델(Apache 2.0 라이선스) 발표, 로컬 실행 가능.
      • 12월 24일 비전 추론 모델 QvQ 발표, 로컬에서도 실행.
    • DeepSeek: 11월 20일, DeepSeek-R1-Lite-Preview 모델을 채팅 인터페이스로 제공.
  • 관련 연구와 예상:
    • Anthropic과 Meta는 아직 공식적인 모델 발표는 없으나, 유사한 추론 스케일링 모델을 개발 중일 가능성 높음.
    • Meta는 12월에 "Training Large Language Models to Reason in a Continuous Latent Space"라는 관련 논문 발표.
    • 추가 정보: Arvind Narayanan과 Sayash Kapoor의 Is AI progress slowing down? 추천.

# 현재 최고의 LLM, 중국에서 $600만 미만으로 훈련되었나?

  • 주요 뉴스:
    • 2024년 크리스마스에 DeepSeek v3가 Hugging Face에 공개됨(README 파일 없이 게시, 다음 날 문서와 논문 추가).
    • 685B 파라미터의 대규모 모델로, Meta의 Llama 3.1 405B보다 훨씬 큼.
    • 공개 라이선스로 제공되는 모델 중 가장 큰 규모.
  • 성능:
    • Claude 3.5 Sonnet과 유사한 벤치마크 성능.
    • Chatbot Arena에서 7위로, Gemini 2.0 및 OpenAI 4o/o1 모델 바로 뒤를 기록.
    • 공개 라이선스 모델 중 최고 순위.
  • 훈련 비용:
    • DeepSeek v3: 2,788,000 H800 GPU 시간으로 약 $5,576,000 소요.
    • Meta Llama 3.1 405B: 30,840,000 GPU 시간으로 DeepSeek v3보다 11배 많은 비용을 사용했지만, 벤치마크 성능은 약간 낮음.
  • 중국의 GPU 수출 규제 영향:
    • 미국의 GPU 수출 규제가 훈련 최적화를 크게 자극한 것으로 보임.
    • DeepSeek v3의 비용 효율적 훈련은 이러한 최적화의 결과로 평가됨.

# 환경적 영향 개선

  • 효율성 향상으로 에너지 소비 감소:
    • 모델의 효율성이 크게 증가하면서 프롬프트 실행 시 에너지 사용량과 환경적 영향이 지난 몇 년간 급감.
    • OpenAI는 GPT-3 시절 대비 프롬프트 비용을 100배 낮춤.
    • Google Gemini와 Amazon Nova와 같은 저비용 모델 제공자들도 손실 없이 프롬프트 운영 가능.
  • 개별 사용자 관점:
    • 대부분의 프롬프트 실행으로 인한 에너지 소비는 실제로 미미한 수준.
    • 자동차로 짧은 거리를 운전하거나 YouTube 동영상을 시청하는 것보다 환경적 영향을 덜 미칠 가능성 있음.
  • 훈련 비용 감소:
    • DeepSeek v3의 $600만 이하 훈련 비용은 훈련 비용이 계속해서 감소할 가능성을 보여줌.
    • 더 적은 자원으로 효율적인 훈련이 가능해짐.
  • 비효율적 모델과 비교:
    • Llama 3의 최대 모델 훈련 비용은 뉴욕에서 런던까지의 승객 만석 상업 항공편 몇 대의 에너지 비용과 비슷.
    • 하지만 훈련 완료 후에는 추가 비용 없이 수백만 명이 사용할 수 있어 장기적으로 효율적.

# 환경적 영향, 더욱 악화됨

  • 대규모 데이터센터 구축 경쟁:
    • Google, Meta, Microsoft, Amazon 등 주요 기업들이 미래 모델 수요를 충족하기 위해 수십억 달러를 투자하여 데이터센터를 구축 중.
    • 이러한 인프라 확장은 전력망과 환경에 큰 영향을 미침.
    • 새로운 원자력 발전소 건설 논의도 있지만, 이는 수십 년이 걸릴 수 있음.
  • 인프라 필요성 논란:
    • DeepSeek v3의 $600만 훈련 비용과 LLM 가격 하락은 이러한 확장이 반드시 필요하지 않을 수도 있음을 시사.
    • 그러나 "인프라를 구축하지 않아 나중에 잘못된 결정으로 판명"될 위험을 감수할 경영자는 거의 없음.
  • 역사적 유사성:
    • 1800년대 전 세계적으로 철도망이 구축되던 시기의 사례와 비교 가능.
    • 막대한 투자와 환경적 영향을 수반했으며, 많은 노선이 중복되어 불필요한 결과를 초래.
    • 결과적으로 여러 금융 위기를 유발:
      • 1873년 공황, 1893년 공황, 1901년 공황, 영국의 철도 열풍(Railway Mania).
    • 인프라는 남았지만 대규모 파산과 환경 피해도 동반.
  • 현재와의 교훈:
    • 데이터센터 경쟁이 유용한 인프라를 남길 수 있지만, 불필요한 확장과 환경적 피해를 초래할 위험 존재.

# 2024년, "Slop"의 해

  • "Slop"의 정의:
    • AI가 생성한 원치 않고 검토되지 않은 콘텐츠를 지칭하는 용어로 자리 잡음.
    • "스팸"이 원치 않는 이메일을 의미하게 된 것처럼, "슬랍"도 사전에 등재될 정도로 널리 사용됨.
  • 용어의 기원:
    • @deepfates의 트윗에서 시작된 논의:
      • "실시간으로 '슬랍'이 하나의 용어로 자리 잡아가는 중."
    • 2024년 5월, 해당 개념을 확장하며 "요청되지 않고 검토되지 않은 AI 생성 콘텐츠"로 정의.
  • 미디어 반응:
    • NY Times와 Guardian에서 "slop" 관련 인터뷰 인용:
      • "현대 AI에 대해 간단히 말할 수 있는 용어가 필요하다. ‘그 이메일 무시해, 스팸이야.’와 ‘그 기사 무시해, 슬랍이야.’는 모두 유용한 교훈이다."
  • 슬랍의 중요성:
    • 생성형 AI를 잘못 사용하는 방식을 간결히 표현하는 데 유용.
    • AI가 효율적이고 책임 있게 사용되도록 돕는 데 기여.
  • 2024년의 문화적 영향:
    • "Slop"은 옥스퍼드 선정 올해의 단어 후보에 올랐으나 "brain rot"에 밀려 선정되지 못함.

# 합성 학습 데이터의 놀라운 효과

  • "모델 붕괴" 개념:
    • 2023년 5월 논문 The Curse of Recursion에서 처음 언급, 2024년 7월 Nature에서 더 주목받음.
    • 주장: AI 생성 콘텐츠가 인터넷에 넘쳐나면 모델이 자신의 출력물을 반복적으로 학습하며 성능이 저하될 것.
    • 현실: 이러한 붕괴는 발생하지 않았으며, 대신 합성 데이터를 활용한 모델 훈련이 점점 일반화되고 있음.
  • 합성 데이터의 장점:
    • Phi-4 기술 보고서에서 설명:
      • 합성 데이터는 유기적 데이터의 대체품이 아닌, 다음과 같은 직접적인 이점을 제공:
        • 구조적이고 점진적인 학습:
          • 유기적 데이터는 토큰 간 관계가 복잡하고 간접적이어서 학습이 어려움.
          • 반면, 합성 데이터는 언어 모델이 이전 토큰을 기반으로 생성하기 때문에 추론 패턴을 더 쉽게 학습 가능.
        • 학습 과정이 더 체계적이고 예측 가능.
  • 큰 모델이 작은 모델을 돕는 사례:
    • 대규모 모델이 더 작은 모델을 위해 합성 데이터를 생성:
      • DeepSeek v3: DeepSeek-R1이 생성한 "추론" 데이터를 사용.
      • Meta Llama 3.3 70B: 2,500만 개 이상의 합성 예제로 파인튜닝.
  • 데이터 설계의 중요성:
    • LLM 훈련에서 데이터 설계가 가장 중요한 요소로 부상.
    • 과거처럼 인터넷의 전체 데이터를 무분별하게 긁어모아 학습시키는 방식은 더 이상 사용되지 않음.

# LLM 사용이 더 어려워진 2024년

  • LLM은 복잡한 도구:
    • 겉으로는 간단해 보이지만 실제로는 깊은 이해와 경험이 필요한 "파워 유저 도구".
    • "체인톱처럼 복잡한 도구가 부엌칼처럼 보이도록 위장되어 있음"이라는 비유로 설명.
  • 2024년의 문제 악화:
    • 모델은 더 강력해졌지만, 여전히 기존의 한계와 제한 사항을 가짐.
    • 다양한 시스템이 도입되며, 각기 다른 도구(Python, JavaScript, 웹 검색, 이미지 생성 등)를 지원.
    • 사용자는 각 도구의 가능성과 한계를 이해해야 효과적으로 사용할 수 있음.
  • 시스템 간의 복잡성 증가:
    • 예: ChatGPT에서 두 가지 방식으로 Python 실행 가능.
    • 외부 API와 통신하는 Claude Artifact를 만들려면 CSP 및 CORS HTTP 헤더에 대한 이해 필요.
    • OpenAI의 o1은 제한된 기능으로 실행되지만, GPT-4o는 웹 검색 및 코드 인터프리터를 지원.
      • 동일한 ChatGPT UI에서 두 모델의 기능 차이를 이해해야 함.
  • 사용자 경험의 한계:
    • LLM 기본 채팅 UI는 초보자를 Linux 터미널에 떨어뜨린 것과 같은 사용자 경험 제공.
    • 많은 사용자가 LLM의 작동 방식과 가능성에 대한 잘못된 정신 모델을 개발.
      • 예: ChatGPT 스크린샷을 논쟁 증거로 사용하는 비합리적인 사례 증가.
  • 이중적인 문제:
    • 오용: LLM의 불완전함에도 불구하고 이를 만능 도구로 오해하는 사용자.
    • 기피: 잘 알고 있는 사람들조차도 LLM의 결함으로 인해 사용을 완전히 포기.
    • LLM을 효과적으로 활용하려면 불완전하면서도 강력한 기술과 협력하는 능력이 필수적.
  • 교육 콘텐츠의 필요성:
    • 사용자 교육이 중요하지만, 현재는 부족한 상황.
    • AI 관련 과장된 Twitter 스레드에 의존하는 대신, 보다 신뢰할 수 있는 교육 자료 개발 필요.

# 지식의 불균형한 분포

  • 알려진 것과 알려지지 않은 것:
    • 대부분의 사람들은 ChatGPT를 알고 있지만, Claude에 대해 들어본 사람은 극히 적음.
    • 이 분야를 적극적으로 따라가는 사람들과 나머지 99% 사이의 지식 격차는 매우 큼.
  • 빠른 변화 속도:
    • 기술 변화의 속도가 지식 격차를 더욱 심화.
    • 최근 한 달 동안 라이브 인터페이스가 도입:
      • 휴대폰 카메라로 무언가를 가리키며 음성으로 대화 가능.
      • 산타클로스 역할을 흉내내게 하는 기능도 선택 가능.
    • 심지어 자칭 기술 애호가들조차 이러한 기능을 시도해보지 않은 경우가 많음.
  • 사회적 영향과 필요성:
    • 이러한 기술이 현재와 미래의 사회에 미칠 영향을 고려할 때, 지식 격차의 크기는 건강하지 않음.
    • 이를 개선하기 위한 더 많은 노력이 필요.

# LLM에 대한 더 나은 비판이 필요함

  • 기술에 대한 반감:
    • Mastodon, Bluesky, Lobste.rs, Hacker News 등 일부 커뮤니티에서 "LLM은 유용하다"는 의견만으로도 논쟁이 발생.
    • 기술에 반감을 갖는 이유:
      • 환경적 영향.
      • 훈련 데이터의 윤리적 문제.
      • 신뢰성 부족.
      • 부정적인 활용 사례.
      • 직업에 미칠 잠재적 영향.
  • 비판의 필요성:
    • LLM은 비판을 받아 마땅하며, 문제를 논의하고 해결책을 찾으며, 책임 있는 사용 방식을 교육하는 것이 중요.
    • 긍정적 활용이 부정적 영향을 능가하도록 돕는 것이 목표.
  • 회의적 관점의 가치:
    • 과도한 과대광고(hype)는 지난 2년간 문제를 악화시킴:
      • 허위 정보와 과장된 기대감이 만연.
      • 잘못된 결정이 빈번하게 내려짐.
    • 비판적 사고는 이 기술을 올바르게 이해하고 활용하는 데 필수적.
  • 결정권자와의 대화:
    • 도구의 좋은 활용 사례를 인정하면서, 직관적이지 않은 함정을 피하는 방법을 설명해야 함.
    • 좋은 활용 사례가 존재하지 않는다고 주장하는 것은 기술의 잠재적 가치를 간과하는 것.
  • 올바른 메시지 전달:
    • "환경적으로 파괴적이고 항상 거짓말을 하는 표절 기계"라는 단편적 비판은 문제를 해결하는 데 도움이 되지 않음.
    • LLM의 진정한 가치를 발견하고 실현하는 데는 직관적이지 않은 가이드와 교육이 필요.
  • 책임감 있는 역할:
    • 이 기술을 이해하는 사람들은 다른 사람들이 올바르게 활용할 수 있도록 돕는 책임을 가짐.
Hacker News 의견
  • 많은 사람들이 ChatGPT 4를 사용하면서 LLMs가 쓸모없다고 생각하는 경향이 있음. 그러나 Claude Sonnet 3.5는 여전히 유용할 수 있음

    • LLMs의 유용성은 사용자의 커뮤니케이션 능력에 크게 의존함
    • 정확한 질문과 배경 설명을 통해 LLMs의 성능을 극대화할 수 있음
    • 지루한 작업을 빠르게 처리하는 데 유용함
  • "에이전트"라는 용어는 명확한 의미가 없어 혼란을 초래함

    • "Agentic"이라는 유행어는 불쾌감을 줄 수 있음
  • LLM 가격 하락에 대한 우려가 있음

    • Gemini의 무료 티어는 여전히 매력적이지만 신뢰하기 어려움
    • 2025년 상반기에 가격이 다시 상승할 가능성에 대해 걱정함
  • "에이전트" 개념은 아직 명확히 정의되지 않음

    • 진정한 "에이전트"는 자율성을 포함해야 한다고 생각함
  • LLMs 사용이 더 어려워졌다는 주장에 동의하지 않음

    • 옵션이 많아졌지만 사용 자체가 어려워진 것은 아님
    • 초보자에게는 여전히 동일한 지침이 제공됨
  • 무엇이 "좋은" 것인지 판단하기 어려워졌음

    • 벤치마크 조작이 많아져서 혼란스러움
    • 개인적으로 테스트 프레임워크를 구축하려고 함
  • LLMs의 결함 때문에 사용을 포기한 사람들이 있음

    • LLMs를 최대한 활용하려면 불안정하면서도 강력한 기술과 함께 작업하는 방법을 배워야 함
  • 일부 GPT-4 모델은 노트북에서도 실행 가능함

    • 이는 대규모 데이터 센터가 필요하지 않음을 의미함
    • OpenAI의 가치는 과대평가되었을 수 있음
  • Apple의 64GB DRAM 사용이 특별한 이유를 이해하지 못함

    • 데이터 센터가 대부분의 RAM 제조 용량을 차지하고 있음에도 불구하고 Apple이 어떻게 DRAM을 공급하는지 궁금함
  • Google Gemini와 Amazon Nova의 비용 구조에 대한 혼란이 있음

    • 에너지 비용보다 낮은 가격으로 제공한다는 주장과 그렇지 않다는 주장이 있음
  • LLMs는 일상적인 작업에 유용하지 않다는 의견이 있음

    • 새로운 LLM 모델은 과대평가된 개선일 뿐이라는 주장
  • 이 산업의 도덕성과 우수성 기준이 낮다는 것을 알게 되었음

  • "추론"을 잠재적/신경 공간으로 밀어넣는 현재 상태에 대한 질문이 있음

    • 모델이 자체적으로 대화하는 것이 최종 출력과 관련이 적어 비효율적임