Google AI Edge - 온디바이스 크로스플랫폼 AI

(ai.google.dev)

14P by GN⁺ 5달전 | ★ favorite | 댓글 1개

Google AI Edge는 모바일, 웹, 임베디드 기기 전반에 AI 모델 배포를 간편하게 지원함
통합된 크로스플랫폼 프레임워크로 Android, iOS, 웹, 임베디드 환경에서 동일한 모델 구동이 가능함
다양한 머신러닝 프레임워크(JAX, Keras, PyTorch, TensorFlow) 와 호환성을 제공함
모델 변환 시각화·디버깅, 커스텀 파이프라인 구축 등 고급 개발 도구를 제공함
Gemini Nano 등 온디바이스 생성형 AI 환경을 Android 및 Chrome 플랫폼에서 활용 가능함

Google AI Edge 소개

Google AI Edge는 온디바이스 및 크로스플랫폼 AI 배포를 위한 솔루션임
모바일, 웹, 임베디드 애플리케이션 환경 등 다양한 플랫폼에 AI 모델을 효율적으로 배포·실행할 수 있는 플랫폼임.

주요 특징

기기 내 보관: 데이터가 로컬에 비공개로 유지되어 지연 시간 감소 및 오프라인 동작을 지원함
크로스 플랫폼 지원: Android, iOS, 웹, 임베디드 환경에서 동일 모델의 실행이 가능함
멀티 프레임워크 호환성: JAX, Keras, PyTorch, TensorFlow 등 여러 머신러닝 프레임워크와의 호환성 제공함
전체 AI 에지 스택: 유연한 프레임워크, 턴키 솔루션, 하드웨어 가속기를 통합적으로 지원함

기성 솔루션 및 유연한 프레임워크

일반적인 AI 작업을 위한 로우 코드 API

생성형 AI, 비전, 텍스트, 오디오 등 일반적인 AI 작업을 쉽게 처리할 수 있는 로우코드 교차 플랫폼 API를 제공함
MediaPipe 기반의 솔루션으로 빠른 시작 및 적용이 가능함

커스텀 모델의 크로스플랫폼 배포

JAX, Keras, PyTorch, TensorFlow 등으로 학습된 기존 AI 모델을 Android, iOS, 웹, 임베디드 기기에서 고성능으로 실행할 수 있음
LiteRT 지원으로 운영 효율성과 배포 편리성 확보함

모델 변환 및 시각화 도구

모델의 변환 및 양자화 과정을 시각화하는 기능을 제공함
성능 벤치마크 오버레이로 AI 프로젝트의 핫스팟 디버깅 가능함

맞춤형 ML 파이프라인 구축

사전 처리 및 사후 처리 로직을 포함해 여러 ML 모델을 체이닝하여 복잡한 기능 파이프라인을 빌드할 수 있음
GPU, NPU 기반의 가속 파이프라인을 CPU와 차단 없이 실행 가능함

Android 및 Chrome의 Gemini Nano

Google의 최신 온디바이스 생성형 AI 모델인 Gemini Nano를 통해 Android 및 Chrome 등 다양한 환경에 생성형 AI 기능을 탑재할 수 있음

결론

Google AI Edge는 분산형, 온디바이스 AI 기술 배포를 위한 강력한 선택지임.
크로스플랫폼 호환성, 다양한 프레임워크 지원, 개발 생산성 도구와 최신 생성형 AI 환경으로, 스타트업 및 IT 개발자 커뮤니티에 효율적이고 강력한 AI 도입 경험을 제공함.

▲

GN⁺ 5달전 [-]

Hacker News 의견

내 생각을 말하면, tensorflow lite와 mediapipe 조합이 한때 훌륭했지만 지난 3년간 Google에서 거의 방치된 느낌임. Mediapipe는 의미 있는 업데이트가 거의 없었고, 많이 쓰이는 모델들도 구식이거나 느린 경우가 많음. TF Lite는 애플 ANU 같은 NPU 지원을 했지만 mediapipe에서는 전혀 지원하지 않았음. 그리고 MLKit, Firebase ML, TF lite, LiteRT 등 브랜드도 너무 혼재되어 있었음. 지금은 hugging face transformers나 transformers.js 라이브러리와 함께 onnxruntime을 쓰거나 executorch가 성숙해질 때까지 기다리는 게 나은 선택이라고 생각함. 공식적으로 tensorflow lite / liteRT로 포팅된 최신 SOTA 모델(SAM2, EfficientSAM, EdgeSAM, DFINE, DEIM, Whisper, Lite-Whisper, Kokoro, DepthAnythingV2 등)은 본 적이 거의 없었고, 기본적으로 다 pytorch 위주이지만, ONNX와 MLX 커뮤니티는 여전히 큼
https://github.com/google-ai-edge/gallery에서 기기에서 바로 실행되는 ML/GenAI 활용 사례를 모아놓은 갤러리를 볼 수 있음. 여기서 모델을 직접 로컬에서 시도하거나 사용할 수 있음
온디바이스 ML을 위한 솔루션이 늘어나는 것 자체는 좋게 생각함. 다만, 내가 사용하는 특정 활용사례가 아니면 선뜻 사용하게 될지는 의문임. 임의의 입력과 출력을 받는 새로운 모델을 추가하는 난이도도 가늠하기 어려움. 디바이스 간 모델 추론을 위해 Onnx를 써왔는데, Onnx는 정말 낮은 레벨이라 원하는 어떤 가중치든 적용할 수 있음. 많은 업무에서는 transformers.js로 Onnx를 감쌀 수 있어 디코딩 등 반복적인 일을 생략할 수 있음(빔서치 직접 구현 굳이 안해도 됨). 위에서 언급한 가이드와 비슷한, 더 포괄적인 자료는 https://github.com/huggingface/transformers.js-examples임. 내가 언급한 다양한 솔루션은 https://ai.google.dev/edge/mediapipe/solutions/guide에서 확인 가능
이건 TensorFlow Lite + MediaPipe를 새로운 “브랜드”로 재포장한 것임
- 이게 바로 https://3d.kalidoface.com/에 적용된 기술인가 궁금함. 디바이스에서 구동된다는 점이 인상적임. 상당수 상용 모션캡처보다도 뛰어남. 게다가 이 솔루션이 꽤 성숙했음에도 불구하고 3년 전 이미 deprecated/unsupported로 표기되어버림. Google이 이 기술을 충분히 활용하거나 알리지 않았던 점이 안타까움
이 솔루션을 써본 경험이 있는 사람 있나 궁금함. 나는 맞춤형 pytorch 모델을 coreml로 내보내려고 꽤 오랜 시간 삽질을 했고, 지원 안되는 게 많고, 세그폴트 떠서 자꾸 중단되고, 여러 유치한 오류들로 힘들었음. 누가 이 솔루션이 그 정도로 험난하지 않다고 확신시켜주면 좋겠음
- 나는 세팅을 다 마치고 Pixel 8a에서 Gemma3 1B를 테스트했음. 불과 몇 분만에 실행됐다는 점은 좋았지만 성능이 별로였음. 겨우 질문만 해도 파싱도 제대로 안 되고, 답변도 시도 안 하고, 영문도 너무 엉망임. “어떻게 이 모델이 내 폰에서 로컬로 돌아갈 정도로 작은지” 묻는 간단한 질문이었는데, 실망이 너무 커서 모델 자체를 포기함. 기본적으로 AI에 대한 기대가 별로 크지 않은 편인데도 그 정도로 실망스러웠음
이걸로 직접 테스트해보았는데 내가 보기에 순수하게 pytorch 모델을 .tflite 모델로 재구성하는 용도였음. 내 경우엔 커스텀 finbert 모델에 적용했는데 모델 크기는 거의 그대로더라. 양자화(quantized)된 버전을 변환했지만 출력이 크게 달랐음. 문서상 standard pytorch 모델, 예를 들면 torchvision.models 계열에 맞춰져 있었던 걸로 기억함. 그러니 그런 계열 모델이면 더 나을지도 모르겠음. 참고로 내가 시도한 건 약 1년 전 이야기고, 그 덕에 대형 버그 패치 전 운 좋게 피해간 셈일지도 모르겠음
여기에 자세한 정보가 있음 https://ai.google.dev/edge/mediapipe/solutions/guide 또한 오픈 소스 링크는 https://github.com/google-ai-edge/mediapipe임. 내가 보기에 이건 실제로 디바이스(엣지)에서 구동되는 AI 모델을 배포하는 통합된 방식임. 일종의 “AI 스택에서의 자바스크립트” 같은 포지션이라고 추측할 수 있음. 이 기술의 타겟 유저가 누구인지 궁금함
- mediapipe의 일부 모델은 꽤 쓸만하지만, mediapipe 자체는 2019년 무렵부터 있어온 오래된 기술임. 항상 AI의 엣지 구동, 특히 비전 AI(예: 얼굴 추적)에 초점을 맞춰왔었음. 얼굴 추적 같은 건 여전히 유용하지만, 이미지 인식 등에서는 세상이 많이 바뀌어버렸음
- 타겟 오디언스라면 크로스플랫폼으로 ML 모델을 배포하고자 하는 사람들이라고 생각함. 특히 TFLite 런타임만으로 해소가 안 되는 추가 코드를 지원해야 하는 경우임. LLM이나 컴퓨터 비전과 같은 활용 사례가 적합함. 예를 들어, 손 제스처 인식기를 배포한다면 아래와 같은 복잡한 과정을 거치게 됨: 입력 이미지를 특정 컬러 스페이스 및 크기로 전처리, 이미지를 GPU로 복사, 손 검출용 TFLite 모델 실행, 출력 리사이즈, 제스처 인식용 TFLite 모델 실행, 유효한 결과로 후처리. 이걸 iOS와 Android에 다 배포하려면 단순 TFLite 실행 외에도 부수 코드가 어마어마함. Google이 Mediapipe에서 선택한 방식은 이런 일련의 파이프라인과 공통 처리 노드를 C++ 라이브러리 형태로 묶고 필요한 조각만 고르고 활용하는 것임. 이 라이브러리는 크로스플랫폼으로 컴파일되고, GPU 가속 옵션도 제공함. Google 내부적으로는 TFLite 런타임에 이런 기능을 확장할지, 아니면 Mediapipe 같은 별도 라이브러리를 만들지 고민이 있었을 거라 생각함. 결론적으로는 TFLite는 “텐서 계산” 자체에 집중시키고, LLM이나 이미지 프로세싱처럼 더 넓은 범위의 작업은 별도 라이브러리로 오프로드하자는 방향이었던 듯함
이게 신제품인지 아니면 기존 MediaPipe 기술들을 하나의 스토리로 묶은 마케팅 페이지 같은 건지 궁금함. 처음에는 상당히 기대했는데, “Google AI Edge”가 도대체 뭔지 혼란스러웠음. 그리고 찾아보니 2년 전쯤 공개된 https://developers.googleblog.com/en/… 이걸 리브랜딩해서 내놓은 것 같음
이미 CoreML이나 TimyML같은 프레임워크로 제공되는 것에 비해 몇 년 뒤처진 솔루션임. 그리고 Google은 먼저 다음 분기 실적 때문에 제품 자체를 곧바로 폐기하지 않는다는 점을 보여줘야 함
- 사실 그건 맞지 않음. 두 제품은 아예 다름. CoreML은 애플 생태계에 한정된다면 PyTorch 모델을 CoreML(.mlmodel)로 변환해서 iOS/Mac의 가속기와 함께 구동할 수 있음. Google Mediapipe는 크로스플랫폼(ios/android/web)에서 ML 플로우를 돌리는 거대한 C++ 라이브러리임. Tensorflow Lite(이제 LiteRT)까지 포함하고 있고, 이미지 리사이즈 같은 일반적인 전처리 작업도 할 수 있는 그래프 프로세서 역할임. Google이 제품을 일찍 폐기한다는 밈이 있긴 하지만, Mediapipe는 오픈 소스라 최소한 그 점은 인정해야 함. 나는 Mediapipe 포크로 iOS/Android 컴퓨터 비전 제품을 만든 적이 있는데, 매우 복잡했지만 잘 돌아감. CoreML로는 절대 만들 수 없는 크로스플랫폼 솔루션임
- TensorFlow Lite는 지난 수년간 수십억 장치에서 검증된 경력이 있음. 이 솔루션은 Mediapipe와 이를 하나로 묶어 리브랜딩/확장한 것이라고 봄. Google이 온디바이스 ML에 진지하게 투자한지는 5년이 넘었고, 갑자기 죽일 것 같지는 않음. 다만 이름을 자주 바꿔서 혼란을 주는 건 맞는 듯함
- 생성형 AI 부분이 애플 생태계에는 없는 것 아닌가. 만약 구글처럼 된다면 엄청난 변화라고 생각함. 개인적으로 채팅 관련 기능이 매우 유용해보임. 그리고 Swift Assist는 도대체 언제 나오냐는 생각임
- 그냥 리브랜딩된 tensorflow lite임. 나는 2019년부터 edge device에서 사용해옴. CoreML도 훌륭함
- CoreML은 애플이 TensorFlow를 보고 협업하지 않고 비슷한 기능을 자체적으로 만듦으로써 생긴 것임. TF는 CoreML이 발표될 즈음 이미 2년 전부터 있었고 성공한 프레임워크였음. 지금까지도 CoreML은 사실상 프로프라이어터리 BLAS 인터페이스에 불과하고, 업계에서 널리 쓰이지 않음. iOS 개발자의 관점이론 무서움
이런 작업은 WebLLM으로도 수행 가능함

답변달기