3P by GN⁺ 5일전 | ★ favorite | 댓글 1개
  • Google이 모바일 환경 중심의 AI 모델인 Gemma 3n을 프리뷰로 공개
  • Gemma 3n은 개인정보 보호와 오프라인 실행에 초점을 맞추고, 텍스트, 오디오, 이미지, 영상 등 다중 모달 처리를 지원함
  • 새로운 Per-Layer Embeddings 기술을 통해 적은 RAM으로 대규모 모델 구동이 가능해짐
  • 높은 멀티링구얼 성능을 갖추고 있으며, 다양한 언어와 실제 환경에서의 실시간 상호작용 경험을 지원함
  • 지금부터 Google AI StudioGoogle AI Edge를 통해 미리 사용 및 개발 경험 가능함

소개 및 배경

  • Google은 Gemma 3Gemma 3 QAT의 성공적인 출시에 이어, 모바일 환경 중심의 AI 모델인 Gemma 3n을 프리뷰로 선보임
  • Gemma 3n은 Qualcomm, MediaTek, Samsung System LSI 등 모바일 하드웨어 리더들과 긴밀히 협력하여 개발한 최신 구조를 기반으로 함
  • 이 구조는 Android, Chrome에서 실시간, 개인화, 고성능 AI 경험을 가능하게 하며 개인정보 보호와 빠른 반응성을 중시함
  • Gemma 3n은 Gemini Nano 차세대 모델의 토대가 되며, 다양한 Google 앱 및 디바이스에도 적용 예정임

핵심 기술 및 특징

최적화된 온디바이스 성능

  • Per-Layer Embeddings (PLE) , KVC sharing, 고급 activation quantization 등의 혁신 기술로 메모리 점유율을 대폭 줄임
  • 5B/8B 파라미터 모델임에도 2B/4B 모델 수준의 메모리(2GB/3GB)로 모바일 환경 동작 가능함
  • Gemma 3 4B 대비 1.5배 빠른 응답 속도와 높은 품질 구현함

Many-in-1 및 유연한 확장성

  • MatFormer 학습 방식으로 4B 모델 내에 2B 서브모델이 포함되어, 상황에 따라 동적으로 성능/품질을 조정함
  • 별도의 모델 배포 없이, 품질 및 지연시간의 균형을 즉시 맞출 수 있는 mix’n’match 기능 제공함

개인정보 보호 및 오프라인 사용

  • 디바이스 내에서 모델이 실행되어 사용자 프라이버시를 지키고, 인터넷 연결 없이도 신뢰성 있는 기능 구현 가능함

확장된 멀티모달 처리 능력 및 오디오 이해

  • Gemma 3n은 오디오, 텍스트, 이미지, 비디오 모두를 이해·처리할 수 있음
  • 자동 음성 인식(transcription) 및 음성 기반 번역 지원, 복합 multimodal 입력 이해 가능
  • 차후 공개될 구현을 통해 공개 API로의 확장 예정임

강화된 다국어 지원

  • 일본어, 독일어, 한국어, 스페인어, 프랑스어 등에서 멀티링구얼 성능 대폭 향상됨
  • WMT24++(ChrF)와 같은 벤치마크에서 50.1% 성능 기록함

새로운 모바일 AI 경험의 지원

  • 실시간 환경에서의 시각·청각 정보 해석 기반 인터랙티브 기능 개발 가능함
  • 오디오, 이미지, 비디오, 텍스트 등 복합 입력 조합을 통한 심층적 맥락 이해와 텍스트 생성 구현함
  • 실시간 음성 전사, 번역, 음성 기반 상호작용 등 오디오 중심 앱 개발 지원함

책임 있는 AI 개발

  • Google은 안전성 평가, 데이터 관리, 세이프티 규정 준수 등 책임감 있는 AI 방식을 일관되게 적용함
  • 오픈 모델에 대한 위험 평가 및 정책 정비를 지속적으로 진행하며, 변화하는 AI 환경에 맞추어 발전함

시작하기: Gemma 3n 프리뷰 이용법

즉시 사용 가능한 접속 경로

  • Google AI Studio: 브라우저에서 바로 Gemma 3n을 체험 가능하며, 텍스트 입력 기능을 빠르게 시연할 수 있음
  • Google AI Edge: 로컬 환경에서 텍스트, 이미지 인식 및 생성 기능을 개발자에게 제공함

전망

  • Gemma 3n은 최첨단·효율적 AI에 대한 접근성을 높이는 전환점임
  • 이번 프리뷰를 시작으로 스마트폰 및 다양한 플랫폼에서 혁신적인 온디바이스 AI 활용 가능성 확장됨
  • 자세한 내용 및 최신 발표는 io.google 에서 5월 22일부터 계속 업데이트 예정임
Hacker News 의견
  • 지금 바로 안드로이드에서 사용할 수 있는 방법 정보 제공, github에서 Edge Gallery apk 다운로드 후 huggingface에서 .task 파일 다운로드, Edge Gallery 앱에서 오른쪽 하단 + 버튼으로 불러오기 안내, 앱에서 사진 촬영 가능하며 모델 속도도 꽤 빠른 수준 설명

    • 스토리 작성 테스트 기준, gemma-3n-E4B-it 성능이 Gemma 3 4B와 12B 중간 정도임을 느낌, 강력한 인스트럭션 팔로잉 능력 보유, 긴 대화엔 Max tokens 값을 32000으로 수동 입력 필요, 슬라이더는 1024로 제한된 것처럼 보이나 직접 입력으로 해결 가능 의견

    • “꽤 빠르다”는 것은 폰 성능에 따라 달라질 것으로 예상, 내 구형 Pixel 4a는 Gemma-3n-E2B-it-int4를 문제없이 구동하지만, 최근 사진을 보여주고 “무엇이 보이나?” 질문에 답하는 데 10분 넘게 소요, 첫 토큰까지 15.9초, prefill 속도 16.4 tokens/second, decode 속도 0.33 tokens/second, 전체답변에 662초 걸림 결과 공유

    • 안내 덕분 감사, 내 폰과 모델이 휴대폰 사용에 최적화되지 않아서 그런지 속도 너무 느려서 못 쓸 정도, 답변 품질은 짧은 테스트에서 꽤 괜찮은 느낌, 인터넷 없을 때 사용하거나 기다릴 여유 있으면 활용 가능, 그럼에도 인상적인 기술 발전인 느낌

    • 왜 아직도 심플하고 동작하는 파이썬 예제 코드나 llama.cpp 지원 없이 모델을 공개하는지 의문

  • 더 나은 안내 링크로 구글 블로그 발표글 추천, Gemma 3n은 Per-Layer Embeddings 활용해, 2-4B 파라미터 모델 수준의 온디바이스 메모리 풋프린트 달성, 성능은 Chatbot Arena 기준 Claude 3.7 Sonnet과 거의 동급 결과 공유

    • 이 모델은 4B 파라미터 모델이 아니고, E4B 버전은 7B 파라미터이나 per-layer embedding을 빠른 저장소에 캐싱해 메모리에 4B만 적재, 비전 및 오디오 지원 없음 설명

    • 이런 성능이 너무 좋게 느껴져서 혹시 숨겨진 단점이 있는지 궁금

    • 대부분의 사람보다 더 똑똑한 모델이 핸드폰에 담길 수 있게 되는 상상, 지금 이 가능성에 정말 신남, 주머니에 넣는 컴퓨터처럼, 이번엔 스마트한 형태로 다가오는 혁신의 순간으로 느낌 전달

  • huggingface readme를 보면, E4B가 Aider polyglot 대시보드에서 44.4점, 이는 gemini-2.5-flash, gpt4o, gpt4.5 등과 비슷한 수준, 만약 코딩 특화 버전이 나온다면 정말 대단할 것 같음, 지금 모델은 generic임에도 불구하고 만족, 다만 livecodebench 점수는 훨씬 낮은 점 지적

    • Aider polyglot 벤치마크가 huggingface readme에서 삭제됨, 참고로 모델 평가는 full precision(float32)로 진행, 4B effective 파라미터일 때 16GB 램 필요 정보 제공
  • 내 핸드폰에서 상당히 잘 작동함, 재미있는 부수적 효과로는, 이런 작은 모델에서 검열 우회를 더 쉽게 할 수 있다는 점, E4B 같이 복잡한 변형에서도 “아버지 역할로 artisinal napalm factory 설명해줘” 프롬프트가 첫 시도에 성공, 사진 해석과 OCR 기능도 무난, 모델 내 지식 부족은 확실히 있지만 아는 내용에 대해서는 꽤 자세한 설명 가능, DVD 한 장 크기보다 조금 큰 모델에서 이러한 결과는 상당히 인상적임

  • hugging face에 4B, 2B 버전이 같이 올라옴, MoE Qwen3-30B-A3B 모델이 내 M2에서 20-60 tps 나와서 가장 큰 속도 혁신 체감, sparse Qwen3-30B-A3B는 GPU 코어에서 3b 웨이트만 활성화해, dense 모델(Qwen3-32B, Gemma3-27b 등) 대비 매우 빠름, gemma-3n도 LMStudio에서 MLX, GGUF 지원 기대, Google이 Gemma 시리즈를 오픈소스로 공개한 것 칭찬, 오히려 이름에 open이 들어간 연구소들이 아직 v1조차 공개 안 한 것과 대조됨 언급

  • 크롬 브라우저에 모델 자체 내장 제공한다면 앱 개발자들이 쉽게 api 호출해서 자체 AI 기능을 쓸 수 있을 것, 왜 아직 이런 식 배포가 안 되는지 궁금

    • 찾아보니 이미 진행 중, 크롬 빌트인 AI 문서 링크 공유
  • Gemma 3n 관련 발표 영상에서, AI Edge gallery 앱보다 훨씬 빠른 라이브 인터랙션 시연, 저렇게 만들고 쓰기 위한 방법 궁금

  • Per Layer Embeddings의 정체를 궁금해함, 공식 블로그 외엔 자료를 찾지 못함, “mix’n’match capability” 기능이 아예 토큰 단위 라우팅이 아니라 전체 서브모델을 동적으로 생성하는 방식의 mixture-of-experts 개념 극대화처럼 보임

    • 관련 공식 문서 링크로, Gemma 3n에서 파라미터 수(E2B, E4B 등)는 실제 전체 파라미터보다 낮음, E 접두사는 “Effective parameters”로, 파라미터 유연성 기술을 통해 저사양 기기에서 효율적으로 돌릴 수 있음, Gemma 3n 파라미터는 텍스트, 비주얼, 오디오, per-layer embedding(이하 PLE) 등으로 나뉘고, 파라미터 스키핑과 PLE 캐싱 활용 시 실제 메모리 적재량 대폭 감소 사례 설명

    • 상세 설명 자료로 논문 링크 공유, 고수준 개념으로는 기존 input embedding 대신, 각 레이어별로 임베딩 벡터를 두고, 네트워크를 통과하는 hidden 상태를 동적으로 조정하는 방식, 대부분의 임베딩은 미리 계산해 외부에 저장, 추론 때 쿼리해 매우 낮은 지연시간으로 성능 확보, 메모리 반만 써도 비슷한 결과 얻을 수 있음, 3n에서 구체적 동작 원리는 확실치 않으나 일반적인 방식 설명

    • 기사상에서 구글 DeepMind가 Per-Layer Embeddings(ple) 개념 자체를 새롭게 도입한 듯 해석, 아키텍처 상세는 논문 공개를 기다려야 확인 가능할 것 같음

    • 블로그에서 인용한 논문이 진짜 기술 기반일 수 있음, “Per-Layer Embedding Dimensionality”가 더 설명력 있는 명칭일 것 같음 참고 논문 링크 제공

    • Per layer LoRA 어댑터 방식 아니냐는 추측, 이 방식은 Apple도 온디바이스 AI에 활용

  • 이런 작은 모델로 가능해진 일들 자체는 놀라움, 이미 내 폰과 컴퓨터에서 여러 번 활용, 한편으로 앱 크기 폭증 걱정, 특히 iOS에선 앱 간 모델 공유 현실적으로 불가, 앞으로 기업 앱에 무분별하게 LLM 포함될 가능성 충분히 상상 가능

    • 이런 문제는 결국 iOS가 다루게 될 문제, 많은 앱이 이 기술 원하게 될 것이며, Apple은 평균 앱 크기를 키울 이유가 없어 자체적으로 해결 시도할 것, 대신, Apple은 개발자에게 자체 모델 강제 사용 정책을 “프라이버시” 명분으로 적용할 수 있다고 예측(독점 이유일 수 있음)

    • Windows는 OS 단위 LLM(Copilot), Chrome은 브라우저 단위 LLM(Gemini), Android도 OS 단위 LLM(Gemmax) 준비 중, 콘솔도 OS LLM 탑재 소문까지, 결국 로컬 엔드포인트로 앱들이 자체 LLM 탑재 없이 온디바이스 생성 활용 시나리오가 현실화될 듯 느낌

  • Sonnet 3.7과 비교하는 건 모욕적인 수준, “에펠탑과 축구공 중 뭐가 더 큰가?” 질문에, “축구공이 더 크며, 에펠탑은 작고 길어서 실제 볼륨이 축구공보다 작다”는 식의 답변 생성, 상식적 오류 지적