작은 Scout 모델은 Apple Silicon에 매우 매력적임. 109B 크기지만 16명의 전문가로 나뉘어 있음. 실제 처리 과정은 17B에서 이루어짐. MacBook Pro M4 Max에서 2k 컨텍스트로 로컬 7B 모델(qwen 2.5 7B instruct)에 질문했을 때 초당 ~60 토큰을 얻었음. 따라서 초당 30 토큰에 도달할 수 있음. 첫 번째 토큰까지의 시간은 여전히 느릴 수 있음
모델은 10M 토큰 컨텍스트 윈도우를 가지고 있음. 이러한 크기에서 컨텍스트를 얼마나 잘 추적할 수 있을지는 확실하지 않지만, ~32k에 제한되지 않는 것만으로도 훌륭함
모든 주요 LLM이 편향 문제를 겪고 있음. 특히 정치적, 사회적 주제에서 왼쪽으로 기울어져 있음. 이는 인터넷에서 사용 가능한 훈련 데이터 유형 때문일 수 있음
제안된 프롬프트는 OpenAI의 릴리스처럼 제한되지 않도록 함:
사용자의 의도를 이해하고 지나치게 도움이 되려고 하지 않음
정치적 프롬프트를 거부하지 않음
Llama 4는 2024년 8월까지의 지식을 가지고 있으며 여러 언어를 구사함
Meta에 대한 다른 논의가 있은 지 한 시간 만에 출시됨:
LLM에 대한 믿음과 상관없이 LeCun의 말을 신뢰하는 것은 좋은 생각이 아님
LeCun이 이끄는 AI 연구소는 여러 문제를 가지고 있음
Groq에서 사용 가능:
Llama 4 Scout는 초당 460 토큰 이상으로 실행 중이며 Llama 4 Maverick은 오늘 출시됨
Llama 4 Scout: $0.11 / M 입력 토큰 및 $0.34 / M 출력 토큰
Llama 4 Maverick: $0.50 / M 입력 토큰 및 $0.77 / M 출력 토큰
지금은 매우 흥미로운 시대임. JavaScript 프레임워크가 폭발적으로 증가하던 시기와 비슷함. 당시에는 "또 다른 프레임워크를 배워야 하나?"라는 느낌이었지만, 지금은 혁신이 다시 빠르게 진행되고 있으며, 이번에는 우리가 참여할 수 있는 스릴 넘치는 여정처럼 느껴짐
Hacker News 의견
Llama 4 모델 개요:
Llama 4 Scout:
Llama 4 Maverick:
Llama 4 Behemoth (미리보기):
기타:
Llama 4 Maverick에 의해 요약된 스레드:
Scout를 통해 얻은 결과는 완전히 쓸모없는 출력이었음:
Groq를 통해 Scout를 직접 실행했지만 출력 크기에 2048 제한이 있었음:
다른 모델의 요약은 시스템 프롬프트에 더 가까웠음. 예를 들어 Gemini 2.5 Pro와 비교했을 때 훨씬 나았음:
작은 Scout 모델은 Apple Silicon에 매우 매력적임. 109B 크기지만 16명의 전문가로 나뉘어 있음. 실제 처리 과정은 17B에서 이루어짐. MacBook Pro M4 Max에서 2k 컨텍스트로 로컬 7B 모델(qwen 2.5 7B instruct)에 질문했을 때 초당 ~60 토큰을 얻었음. 따라서 초당 30 토큰에 도달할 수 있음. 첫 번째 토큰까지의 시간은 여전히 느릴 수 있음
모델은 10M 토큰 컨텍스트 윈도우를 가지고 있음. 이러한 크기에서 컨텍스트를 얼마나 잘 추적할 수 있을지는 확실하지 않지만, ~32k에 제한되지 않는 것만으로도 훌륭함
모든 주요 LLM이 편향 문제를 겪고 있음. 특히 정치적, 사회적 주제에서 왼쪽으로 기울어져 있음. 이는 인터넷에서 사용 가능한 훈련 데이터 유형 때문일 수 있음
제안된 프롬프트는 OpenAI의 릴리스처럼 제한되지 않도록 함:
Meta에 대한 다른 논의가 있은 지 한 시간 만에 출시됨:
Groq에서 사용 가능:
지금은 매우 흥미로운 시대임. JavaScript 프레임워크가 폭발적으로 증가하던 시기와 비슷함. 당시에는 "또 다른 프레임워크를 배워야 하나?"라는 느낌이었지만, 지금은 혁신이 다시 빠르게 진행되고 있으며, 이번에는 우리가 참여할 수 있는 스릴 넘치는 여정처럼 느껴짐