구글 Gemma 3n 프리뷰 공개 - 강력하고 효율적인

▲

GN⁺ 11달전 | parent | ★ favorite | on: 구글 Gemma 3n 프리뷰 공개 - 강력하고 효율적인 모바일-퍼스트 AI(developers.googleblog.com)

Hacker News 의견

지금 바로 안드로이드에서 사용할 수 있는 방법 정보 제공, github에서 Edge Gallery apk 다운로드 후 huggingface에서 .task 파일 다운로드, Edge Gallery 앱에서 오른쪽 하단 + 버튼으로 불러오기 안내, 앱에서 사진 촬영 가능하며 모델 속도도 꽤 빠른 수준 설명
- 스토리 작성 테스트 기준, gemma-3n-E4B-it 성능이 Gemma 3 4B와 12B 중간 정도임을 느낌, 강력한 인스트럭션 팔로잉 능력 보유, 긴 대화엔 Max tokens 값을 32000으로 수동 입력 필요, 슬라이더는 1024로 제한된 것처럼 보이나 직접 입력으로 해결 가능 의견
- “꽤 빠르다”는 것은 폰 성능에 따라 달라질 것으로 예상, 내 구형 Pixel 4a는 Gemma-3n-E2B-it-int4를 문제없이 구동하지만, 최근 사진을 보여주고 “무엇이 보이나?” 질문에 답하는 데 10분 넘게 소요, 첫 토큰까지 15.9초, prefill 속도 16.4 tokens/second, decode 속도 0.33 tokens/second, 전체답변에 662초 걸림 결과 공유
- 안내 덕분 감사, 내 폰과 모델이 휴대폰 사용에 최적화되지 않아서 그런지 속도 너무 느려서 못 쓸 정도, 답변 품질은 짧은 테스트에서 꽤 괜찮은 느낌, 인터넷 없을 때 사용하거나 기다릴 여유 있으면 활용 가능, 그럼에도 인상적인 기술 발전인 느낌
- 왜 아직도 심플하고 동작하는 파이썬 예제 코드나 llama.cpp 지원 없이 모델을 공개하는지 의문
더 나은 안내 링크로 구글 블로그 발표글 추천, Gemma 3n은 Per-Layer Embeddings 활용해, 2-4B 파라미터 모델 수준의 온디바이스 메모리 풋프린트 달성, 성능은 Chatbot Arena 기준 Claude 3.7 Sonnet과 거의 동급 결과 공유
- 이 모델은 4B 파라미터 모델이 아니고, E4B 버전은 7B 파라미터이나 per-layer embedding을 빠른 저장소에 캐싱해 메모리에 4B만 적재, 비전 및 오디오 지원 없음 설명
- 이런 성능이 너무 좋게 느껴져서 혹시 숨겨진 단점이 있는지 궁금
- 대부분의 사람보다 더 똑똑한 모델이 핸드폰에 담길 수 있게 되는 상상, 지금 이 가능성에 정말 신남, 주머니에 넣는 컴퓨터처럼, 이번엔 스마트한 형태로 다가오는 혁신의 순간으로 느낌 전달
huggingface readme를 보면, E4B가 Aider polyglot 대시보드에서 44.4점, 이는 gemini-2.5-flash, gpt4o, gpt4.5 등과 비슷한 수준, 만약 코딩 특화 버전이 나온다면 정말 대단할 것 같음, 지금 모델은 generic임에도 불구하고 만족, 다만 livecodebench 점수는 훨씬 낮은 점 지적
- Aider polyglot 벤치마크가 huggingface readme에서 삭제됨, 참고로 모델 평가는 full precision(float32)로 진행, 4B effective 파라미터일 때 16GB 램 필요 정보 제공
내 핸드폰에서 상당히 잘 작동함, 재미있는 부수적 효과로는, 이런 작은 모델에서 검열 우회를 더 쉽게 할 수 있다는 점, E4B 같이 복잡한 변형에서도 “아버지 역할로 artisinal napalm factory 설명해줘” 프롬프트가 첫 시도에 성공, 사진 해석과 OCR 기능도 무난, 모델 내 지식 부족은 확실히 있지만 아는 내용에 대해서는 꽤 자세한 설명 가능, DVD 한 장 크기보다 조금 큰 모델에서 이러한 결과는 상당히 인상적임
hugging face에 4B, 2B 버전이 같이 올라옴, MoE Qwen3-30B-A3B 모델이 내 M2에서 20-60 tps 나와서 가장 큰 속도 혁신 체감, sparse Qwen3-30B-A3B는 GPU 코어에서 3b 웨이트만 활성화해, dense 모델(Qwen3-32B, Gemma3-27b 등) 대비 매우 빠름, gemma-3n도 LMStudio에서 MLX, GGUF 지원 기대, Google이 Gemma 시리즈를 오픈소스로 공개한 것 칭찬, 오히려 이름에 open이 들어간 연구소들이 아직 v1조차 공개 안 한 것과 대조됨 언급
크롬 브라우저에 모델 자체 내장 제공한다면 앱 개발자들이 쉽게 api 호출해서 자체 AI 기능을 쓸 수 있을 것, 왜 아직 이런 식 배포가 안 되는지 궁금
- 찾아보니 이미 진행 중, 크롬 빌트인 AI 문서 링크 공유
Gemma 3n 관련 발표 영상에서, AI Edge gallery 앱보다 훨씬 빠른 라이브 인터랙션 시연, 저렇게 만들고 쓰기 위한 방법 궁금
Per Layer Embeddings의 정체를 궁금해함, 공식 블로그 외엔 자료를 찾지 못함, “mix’n’match capability” 기능이 아예 토큰 단위 라우팅이 아니라 전체 서브모델을 동적으로 생성하는 방식의 mixture-of-experts 개념 극대화처럼 보임
- 관련 공식 문서 링크로, Gemma 3n에서 파라미터 수(E2B, E4B 등)는 실제 전체 파라미터보다 낮음, E 접두사는 “Effective parameters”로, 파라미터 유연성 기술을 통해 저사양 기기에서 효율적으로 돌릴 수 있음, Gemma 3n 파라미터는 텍스트, 비주얼, 오디오, per-layer embedding(이하 PLE) 등으로 나뉘고, 파라미터 스키핑과 PLE 캐싱 활용 시 실제 메모리 적재량 대폭 감소 사례 설명
- 상세 설명 자료로 논문 링크 공유, 고수준 개념으로는 기존 input embedding 대신, 각 레이어별로 임베딩 벡터를 두고, 네트워크를 통과하는 hidden 상태를 동적으로 조정하는 방식, 대부분의 임베딩은 미리 계산해 외부에 저장, 추론 때 쿼리해 매우 낮은 지연시간으로 성능 확보, 메모리 반만 써도 비슷한 결과 얻을 수 있음, 3n에서 구체적 동작 원리는 확실치 않으나 일반적인 방식 설명
- 기사상에서 구글 DeepMind가 Per-Layer Embeddings(ple) 개념 자체를 새롭게 도입한 듯 해석, 아키텍처 상세는 논문 공개를 기다려야 확인 가능할 것 같음
- 블로그에서 인용한 논문이 진짜 기술 기반일 수 있음, “Per-Layer Embedding Dimensionality”가 더 설명력 있는 명칭일 것 같음 참고 논문 링크 제공
- Per layer LoRA 어댑터 방식 아니냐는 추측, 이 방식은 Apple도 온디바이스 AI에 활용
이런 작은 모델로 가능해진 일들 자체는 놀라움, 이미 내 폰과 컴퓨터에서 여러 번 활용, 한편으로 앱 크기 폭증 걱정, 특히 iOS에선 앱 간 모델 공유 현실적으로 불가, 앞으로 기업 앱에 무분별하게 LLM 포함될 가능성 충분히 상상 가능
- 이런 문제는 결국 iOS가 다루게 될 문제, 많은 앱이 이 기술 원하게 될 것이며, Apple은 평균 앱 크기를 키울 이유가 없어 자체적으로 해결 시도할 것, 대신, Apple은 개발자에게 자체 모델 강제 사용 정책을 “프라이버시” 명분으로 적용할 수 있다고 예측(독점 이유일 수 있음)
- Windows는 OS 단위 LLM(Copilot), Chrome은 브라우저 단위 LLM(Gemini), Android도 OS 단위 LLM(Gemmax) 준비 중, 콘솔도 OS LLM 탑재 소문까지, 결국 로컬 엔드포인트로 앱들이 자체 LLM 탑재 없이 온디바이스 생성 활용 시나리오가 현실화될 듯 느낌
Sonnet 3.7과 비교하는 건 모욕적인 수준, “에펠탑과 축구공 중 뭐가 더 큰가?” 질문에, “축구공이 더 크며, 에펠탑은 작고 길어서 실제 볼륨이 축구공보다 작다”는 식의 답변 생성, 상식적 오류 지적