5P by xguru 4시간전 | ★ favorite | 댓글 1개
  • 온디바이스 생성형 AI 실행에 특화된 iOS/안드로이드 앱으로, 인터넷 연결 없이 완전 오프라인·프라이빗 환경에서 LLM을 구동
  • Gemma 4 패밀리 공식 지원 추가 - 서버 전송 없이 고급 추론·논리·창작 기능 테스트 가능
  • Agent Skills: LLM과의 대화를 넘어 능동적인 비서로 만들기
    • Wikipedia 팩트 검색, 인터랙티브 맵, 시각 요약 카드 등 툴로 LLM 능력 확
    • URL에서 모듈식 스킬 로드 및 GitHub Discussions 커뮤니티 스킬 탐색 지원
  • Thinking Mode: AI 채팅 중 모델의 단계별 추론 과정을 시각적으로 확인 가능 (현재 Gemma 4 패밀리 등 지원 모델 한정)
  • Ask Image: 카메라·사진 갤러리를 활용한 멀티모달 객체 인식·시각 퍼즐·상세 설명 생성
  • Audio Scribe: 온디바이스 모델로 음성을 실시간 전사·번역
  • Prompt Lab: temperature, top-k 등 파라미터를 세밀하게 조정하며 프롬프트를 테스트하는 전용 워크스페이스
  • Mobile Actions : FunctionGemma 270m 파인튜닝 모델 기반의 오프라인 기기 제어 자동화
  • Tiny Garden : 자연어 미니게임
  • Model Management & Benchmark: 오픈소스 모델 다운로드, 커스텀 모델 로드, 하드웨어별 벤치마크 테스트 지원
  • LiteRT 경량 런타임 + Hugging Face 연동으로 모델 탐색·최적화 실행
  • Android 12+, iOS 17+ 지원 / Google Play , App Store 에서 설치 가능 / Google Play 미접근 환경은 GitHub 릴리스에서 APK 직접 설치도 가능
  • 라이선스: Apache-2.0 / 개발 언어: Kotlin
Hacker News 의견들
  • 정말 인상적인 모델임. 지금은 Mac에서 돌리고 있는데, 이제 iPhone에서도 로컬로 실행할 수 있다니 테스트해봐야겠음
    이 모델을 heretic 스크립트로 dealignment(검열 해제) 해봤는데, 진짜 잘 작동했음. 직접 gemma4-heretical 리포도 만들어서 정리했음
    MLX 버전으로도 만들 수 있는데, Mac에서는 좀 더 빠르지만 Ollama에서는 안 돌아감 (LM Studio에서는 가능할지도 모름)
    M4 Macbook Pro 128GB에서 아주 잘 돌아가고, 64GB에서도 무난할 듯. 메모리가 작으면 양자화 단계를 낮춰야 함
    나는 이런 로컬 비정렬 모델을 좋아함. 외부 플랫폼에서 검열받는 대신, 내 기기 안에서 자유롭게 실험할 수 있음. “민감하지만 생산적인” 대화들이 가능해짐
    OpenClaw에 연결해보려 했는데 문제 생김. 물론 이런 접근이 악용될 수도 있지만, 선의의 사용자가 훨씬 많다고 생각함

    • 나는 Mac에서 omlx로 MLX 모델을 돌리고 있는데, 아주 잘 작동함
    • abliterate 스크립트를 봤는데, 정확히 뭘 하는지 모르겠음. 어떤 종류의 대화가 가능해지는지 궁금함
    • Mac에서 코딩용으로 써봤는데 Qwen보다 인상적이지 않았음. 특정 영역에서는 더 나을 수도 있겠지만 아직은 잘 모르겠음
    • 아직 agent skills 플랫폼으로 뭔가 만들어보진 않았지만 꽤 흥미로움. Android에서는 sandbox가 WebView에 index.html을 로드하고, 표준화된 문자열 I/O로 상호작용함. 미래의 엣지 컴퓨팅 에이전트 샌드박스의 초기 형태처럼 느껴짐
    • 로컬 LLM으로 어떤 “민감한 대화”를 시도해볼 계획인지 예시를 들어줄 수 있는지 궁금함
  • 이 앱은 멋지지만, E2B 모델의 잠재력을 다 보여주진 못함
    나는 M3 Pro에서 Gemma E2B로 실시간 오디오·비디오 AI를 만들었고, Parlor라는 이름으로 /r/LocalLLaMA에 올렸음. 꽤 반응이 좋음
    Macbook에서 돌리고 있지만, 이 벤치마크에 따르면 iPhone 17 Pro에서도 충분히 가능함

    • Parlor 정말 멋짐. 게다가 무료로 공개했다니 대단함. 로컬 LLM의 훌륭한 활용 예시라고 생각함
  • iPhone에서 모델을 돌려봤는데 꽤 괜찮은 결과를 얻었음. 클라우드의 Gemini보단 못하지만 충분히 쓸만함
    “모바일 액션” 기능으로 손전등 켜기, 지도 열기 같은 기기 제어가 가능해서 흥미로움. Siri Shortcuts와 연동되면 정말 좋을 듯
    교사용 앱을 만드는 입장에서, 로컬 모델의 보편화가 너무 반가움. 개인정보 보호법 때문에 클라이언트 측 실행이 중요함. iOS나 Chrome에서도 온디바이스 모델 API가 있지만 아직 품질이 낮음

    • 나에겐 이 모델의 환각(hallucination) 이 예전 시절로 돌아간 느낌임. 그래도 로컬에서 이 정도가 돌아간다는 게 인상적임. 앞으로도 몇 년 전 수준의 모델이라도 로컬에서 계속 돌릴 수 있길 바람
  • 나는 AI의 현실적인 미래가 두 가지뿐이라고 생각함 — 로컬 온디바이스 무료 실행, 혹은 클라우드 고비용 서비스
    후자는 인간이 더 비싸거나 느린 작업에만 쓰일 것임. Gemma 4 모델은 iPhone과 macOS에 통합된 미래형 Siri, 즉 영화 “Her” 같은 비서의 가능성을 보여줌

    • 왜 클라우드가 더 비싸질 거라고 생각하는지 궁금함. 대형 기업들은 추론 단계에서 이미 이익을 내고 있음. 클라우드 전용 하드웨어가 더 효율적이고, 폰에서 돌리면 배터리만 빨릴 것임
    • 소비자 기기에서 무료 모델을 돌릴 수 있다면, 클라우드 제공자도 더 나은 품질과 부가가치를 묶어서 제공할 수 있지 않겠음?
    • 벤더가 통제하는 폰에서 로컬 모델을 돌린다고 해도, 진정한 의미의 로컬 자율성은 아님
    • 이건 당신이 꿈꾸는 미래의 첫걸음은 아님
    • “Her”를 보고 정말 그런 미래가 오길 바란 건지 진심으로 묻고 싶음
  • 영어 버전 앱 링크를 공유함
    iOS용 Google AI Edge Gallery
    Android 버전
    Google의 Edge 프로젝트 데모 앱임

  • 대부분의 모델이 아직 다운로드 불가 상태임. 곧 공개되길 기대함

  • App Store 웹페이지가 가짜처럼 보인다는 의문을 제기함. 헤더 텍스트가 픽셀화돼 있고, 배경이 깜빡이며, 아이콘 품질도 낮음

    • 동일한 미국 버전 페이지도 디자인 품질이 낮음. 이제 Apple은 디자인이 핵심 강점이 아닌 듯함
    • URL에 /nl/이 있는 걸 보니 네덜란드 버전임. 기본 App Store 메인은 좀 낫지만 여전히 어색함
    • 아마 로컬라이제이션 품질 문제일 듯. 내 iPhone에서는 App Store 앱으로 열리면 괜찮게 보임
    • Firefox에서는 이런 현상이 안 보임
    • GrapheneOS의 Firefox에서는 완벽하게 렌더링됨
  • iPhone 16 Pro에서 Gemma-4-E2B-it 모델을 테스트했는데 초당 30토큰 정도 나왔음. 폰이 꽤 뜨거워졌지만 성능은 인상적이었음. 내 앱에도 적용해볼 예정임

  • 내 아들이 Android에서 2B 모델을 쓰기 시작했음. 저렴한 Motorola 폰에서도 잘 돌아가고, 외국어 읽기·쓰기 연습에 활용 중임. 모델의 경량화가 정말 놀라움

  • 새로운 모델들이 매우 인상적임. AI Edge Gallery는 GPU에서 돌지만, 최신 칩의 NPU가 훨씬 빠름
    예를 들어 A16 칩은 35 TOPS의 Neural Engine을 갖고 있고, GPU는 7 TFLOPS 수준임. Qualcomm도 비슷한 상황임

    • 이런 저전력 칩에서 그 정도 성능이라니 놀라움. M 시리즈 버전이 기대됨. 데스크톱과 폰에 초고속 TPU 시대가 곧 올 것 같음