Gemma 4 온디바이스, 이 조건이면 못 씁니다
“스마트폰에서 GPT급 AI”라는 헤드라인이 넘쳐나고 있습니다. 막상 공식 문서를 열어보면 지금 당장 쓸 수 없는 조건이 꽤 많습니다. E2B·E4B 모델의 오디오 제한, AICore 지원 기기 조건, 사전 생산 모델의 실제 속도 차이까지 — 설레기 전에 이 부분을 먼저 확인하는 게 맞습니다.
E4B 배터리 60% 절감
26B 활성 파라미터 3.8B
Apache 2.0 상업 무제한
Gemma 4가 뭔지 30초 정리
2026년 4월 2일, 구글 딥마인드가 Gemma 4를 공개했습니다. 한 줄로 요약하면 — “제미나이 3와 같은 연구 기반으로 만들었지만, 가중치를 공개해서 누구나 자기 기기에서 돌릴 수 있는 오픈 모델”입니다. (출처: Google DeepMind 공식 블로그, 2026.04.02)
모델은 4가지 크기로 나뉩니다. E2B(Effective 2B)와 E4B(Effective 4B)는 스마트폰·라즈베리파이 같은 엣지 기기 대상이고, 26B MoE와 31B Dense는 워크스테이션이나 서버 환경을 겨냥합니다. 라이선스는 Apache 2.0, 즉 수정·상업화·재배포 모두 무제한입니다.
Gemma 4의 초기 다운로드 수치를 보면 — Gemma 1세대 출시 이후 개발자들이 누적 4억 회 이상 다운로드하며 10만 개 이상의 파생 모델(젬마버스)을 만들었습니다. (출처: Google DeepMind 공식 블로그, 2026.04.02) 커뮤니티의 크기가 이미 경쟁 오픈 모델과 다른 차원입니다.
💡 공식 발표문과 실제 모델 카드를 같이 놓고 보니 — “스마트폰에서 GPT급”이라는 표현이 어느 모델 기준인지가 중요합니다. E2B·E4B는 온디바이스, 26B·31B는 로컬 워크스테이션 기준이고 각각 쓸 수 있는 조건이 다릅니다.
온디바이스 모델 E2B·E4B, 실제 구조가 다릅니다
E2B와 E4B의 이름에 있는 “E”는 “Effective(유효)”를 뜻합니다. 실제 총 파라미터는 E2B가 5.1B, E4B가 8B인데, 추론 시 활성화되는 파라미터는 각각 2.3B, 4.5B에 그칩니다. (출처: Gemma 4 모델 카드, ai.google.dev, 2026.04.02) 나머지 파라미터는 Per-Layer Embeddings(PLE)라는 구조에 쓰이는데, 이건 토큰 조회용으로만 동작하기 때문에 실제 연산 부담이 크지 않습니다.
쉽게 말하면 — 총 파라미터가 8B여도 실제 연산 부담은 4.5B 수준으로 작동한다는 뜻입니다. 모바일 기기에서 메모리와 배터리를 아낄 수 있는 핵심 구조가 여기서 나옵니다.
| 모델 | 총 파라미터 | 유효(활성) 파라미터 | 컨텍스트 | 오디오 지원 |
|---|---|---|---|---|
| E2B | 5.1B | 2.3B | 128K | ✅ (최대 30초) |
| E4B | 8B | 4.5B | 128K | ✅ (최대 30초) |
| 26B MoE | 25.2B | 3.8B | 256K | ❌ 없음 |
| 31B Dense | 30.7B | 30.7B (전체) | 256K | ❌ 없음 |
(출처: Gemma 4 모델 카드 — ai.google.dev/gemma/docs/core/model_card_4, 2026.04.02)
한 가지 눈여겨볼 부분 — 오디오 입력은 E2B·E4B에서만 됩니다. 더 큰 모델인 26B나 31B에는 오디오 지원이 아예 없습니다. 구글이 음성 기능을 온디바이스 전용으로 설계한 셈인데, 이 선택의 의미는 다음 섹션에서 이어집니다.
E4B가 31B보다 빠른 이유 — 숫자로 확인됩니다
“파라미터가 작으면 성능이 낮을 것”이라는 예상과 달리, AIME 2026 수학 벤치마크에서 Gemma 4 E2B는 37.5%를 기록했습니다. 반면 이전 세대 Gemma 3 27B는 20.8%에 머물렀습니다. (출처: Gemma 4 모델 카드, ai.google.dev/gemma/docs/core/model_card_4) 크기 기준으로 약 10배 이상 큰 모델을 2B급이 앞서는 결과입니다.
속도 측면에서도 흥미롭습니다. 26B MoE 모델은 총 파라미터가 25.2B이지만, 추론 시 실제로 활성화되는 파라미터는 3.8B뿐입니다. (출처: 위 동일) 8개 전문가(expert) 그룹 중 일부만 선택적으로 켜지는 MoE 구조 때문입니다. 실제 연산 속도는 4B 모델과 비슷한 수준으로 동작합니다.
💡 벤치마크 수치를 크기별로 정렬해 보면 — E2B(2.3B 유효)가 Gemma 3 27B를 AIME에서 앞섭니다. 단순히 “더 작으면 더 나쁘다”가 아닌, 설계 방식이 결과를 바꾼 사례입니다.
| 벤치마크 | E2B | E4B | Gemma 3 27B | 31B |
|---|---|---|---|---|
| AIME 2026 | 37.5% | 42.5% | 20.8% | 89.2% |
| MMLU Pro | 60.0% | 69.4% | 67.6% | 85.2% |
| LiveCodeBench v6 | 44.0% | 52.0% | 29.1% | 80.0% |
(출처: Gemma 4 모델 카드 — ai.google.dev/gemma/docs/core/model_card_4, 2026.04.02 / 붉은색 = Gemma 3 27B, 비교 기준)
MMLU Pro 기준으로 E4B(69.4%)가 Gemma 3 27B(67.6%)를 앞섭니다. 온디바이스 AI가 “클라우드 AI의 보조”를 넘어 직접 경쟁 가능한 수준에 진입한 것입니다.
오디오는 30초, 비디오는 60초 — 지금 이 조건이 있습니다
구글 공식 모델 카드에 딱 이렇게 나옵니다. “오디오는 최대 30초, 비디오는 초당 1프레임 처리 기준 최대 60초까지 지원한다.” (출처: Gemma 4 모델 카드, ai.google.dev/gemma/docs/core/model_card_4) 30초라는 수치는 일반 대화에선 충분할 수 있지만, 회의 녹음 요약이나 팟캐스트 분석처럼 길이가 정해진 콘텐츠에는 바로 걸리는 조건입니다.
오디오 포맷과 관련해서는 자동 음성 인식(ASR)과 음성 번역(AST) 두 가지를 지원하지만, 공식 문서가 별도 포맷 제한이나 샘플레이트 조건을 따로 명시하지 않았습니다. 긴 녹음을 쪼개서 넣는 방법이 현재 가장 현실적인 우회 방법입니다.
비디오 처리는 초당 1프레임을 기준으로 하기 때문에, 60초짜리 영상이 들어오면 내부적으로 60장의 이미지를 순차적으로 처리하는 구조입니다. 이미지 한 장당 할당되는 시각 토큰 예산(visual token budget)이 70~1,120 사이에서 설정 가능한데, 낮은 예산(70~140)을 쓰면 속도가 빨라지는 대신 작은 글씨 인식이나 세밀한 문서 파싱에서 정확도가 낮아집니다. (출처: 위 동일)
💡 30초라는 오디오 제한은 실제로 어떤 의미일까요 — 한국어 기준 보통 말하기 속도로 30초면 약 250~300자 분량입니다. 짧은 음성 명령이나 단문 메모 입력엔 충분하지만, 강의나 회의 클립 처리는 지금 단계에서 불가능합니다.
AICore Developer Preview, 모든 기기에서 안 됩니다
안드로이드 앱에서 Gemma 4를 직접 구동하려면 구글의 AICore Developer Preview를 통해야 합니다. 문제는 이게 모든 안드로이드 기기에서 되지 않는다는 점입니다. 구글 공식 문서는 “AICore 지원 기기(AICore-enabled devices)에서만 ML Kit GenAI Prompt API가 동작한다”고 명확하게 밝히고 있습니다. (출처: Android Developers 블로그 — android-developers.googleblog.com/2026/04/AI-Core-Developer-Preview)
현재 AICore를 지원하는 칩셋은 구글·미디어텍·퀄컴의 최신 세대 AI 가속기가 탑재된 기기로 제한됩니다. 지원되지 않는 기기에서는 CPU 기반으로 모델이 실행되는데, 공식 문서는 이 경우 “최종 프로덕션 성능을 대표하지 않는다”고 직접 명시했습니다. CPU에서 돌리면 느리고 배터리를 많이 쓴다는 뜻입니다.
AICore 미지원 기기에서 E2B·E4B를 테스트하고 싶다면 구글 플레이에 있는 AI Edge Gallery 앱이 현실적인 대안입니다. 다만 이것도 아직 사전 생산(pre-production) 모델이라, 공식 문서가 “느리고 정확도가 낮을 수 있으며 시스템 안정성과 저장 공간에 영향을 줄 수 있다”고 경고하고 있습니다.
⚠️ 지금 바로 쓸 수 없는 조건 요약
① AICore 미지원 기기 → CPU 실행(느림, 배터리 소모 증가)
② Developer Preview 단계 → 프로덕션 품질 아님
③ tool calling·structured output·thinking mode → Prompt API에서 아직 미지원, 추후 업데이트 예정
(출처: Android Developers 블로그, 2026.04.02)
구글은 올해 하반기 출시될 플래그십 안드로이드 기기에 Gemini Nano 4(Gemma 4 기반)를 탑재할 예정이라고 밝혔습니다. 지금 단계는 개발자가 앱을 미리 준비하는 시기이지, 일반 사용자가 즉시 활용하는 시기가 아닙니다.
31B·26B와 E4B·E2B, 뭘 선택해야 하는지 기준이 있습니다
Gemma 4 네 가지 모델은 “성능 순서대로 고르면 된다”는 식으로 접근하면 돈과 시간을 낭비합니다. 각 모델은 설계 목적 자체가 다릅니다. 26B MoE는 “전체 파라미터의 15%만 켜서 4B 속도로 25B 퀄리티를 내는” 구조이고, 31B Dense는 “모든 파라미터를 다 쓰면서 최고 품질을 내는” 구조입니다. (출처: Google DeepMind 공식 블로그, 2026.04.02)
온디바이스 관점에서는 E2B·E4B만 선택지입니다. E4B는 구글 안드로이드 팀 블로그에서 “E2B보다 3배 느리지만 더 복잡한 추론 작업에 적합”하다고 설명합니다. (출처: Android Developers 블로그, 2026.04.02) 반대로 E2B는 속도가 최우선일 때 — 예를 들어 실시간 자막, 빠른 OCR, 간단한 명령어 처리에 맞습니다.
| 선택 기준 | E2B | E4B | 26B MoE | 31B Dense |
|---|---|---|---|---|
| 실행 환경 | 스마트폰 | 스마트폰 | 게이밍 PC·워크스테이션 | H100 1장 이상 |
| 오디오 지원 | ✅ | ✅ | ❌ | ❌ |
| 컨텍스트 길이 | 128K | 128K | 256K | 256K |
| 미세조정 가능 | ✅ | ✅ | ✅ | ✅ |
| 배터리 절감 | 최대 60% | 최대 60% | 해당 없음 | 해당 없음 |
(출처: Gemma 4 모델 카드 및 Android Developers 블로그, 2026.04.02 / 배터리 절감 수치는 이전 버전 대비 기준)
Ollama에서 로컬 실행 시 26B MoE는 단일 소비자용 GPU에서도 동작합니다. 비양자화(BF16) 가중치 기준 26B는 약 52GB, 31B는 약 62GB의 GPU 메모리가 필요하지만, int4 양자화 버전은 26B 기준 약 13~15GB 수준으로 떨어집니다. (추정 근거: 모델 카드 파라미터 수 및 4비트 양자화 계산식 기반)
💡 26B MoE가 특별히 흥미로운 이유 — 25.2B의 총 파라미터 중 추론 시 3.8B만 활성화된다는 것은, RTX 3090(24GB VRAM)으로도 양자화 없이 돌릴 수 있는 가능성을 열어줍니다. 아직 커뮤니티 검증이 진행 중이지만 공식 모델 카드 수치가 이 방향을 가리킵니다.
자주 묻는 질문 (Q&A)
마치며 — 총평
Gemma 4가 분명히 인상적인 이유가 있습니다. E2B가 Gemma 3 27B보다 수학 벤치마크에서 앞서고, Apache 2.0으로 상업 활용 문턱을 없앴으며, 구글과 퀄컴·미디어텍이 손을 잡아 최신 스마트폰에서 배터리를 60% 덜 쓰면서 AI를 돌릴 길을 열었습니다.
그러나 지금 이 시점에 “온디바이스 AI를 바로 앱에 넣을 수 있다”고 받아들이면 오해가 생깁니다. AICore 지원 기기 조건, tool calling·thinking mode 미지원, 오디오 30초 제한, 비디오 60초 제한 — 이것들이 개발자가 프로덕션 단계에서 맞닥뜨릴 실제 조건들입니다. 지금은 앱을 미리 설계하고 프롬프트를 다듬는 준비 기간으로 활용하는 것이 현실적입니다.
하반기 플래그십 안드로이드 기기에 Gemini Nano 4가 탑재되면 지금 Developer Preview에서 작성한 코드가 그대로 이어진다는 게 구글의 약속입니다. 조건을 정확히 파악하고 들어가는 쪽이 나중에 재작업할 일이 없습니다.
📎 본 포스팅 참고 자료
- Google DeepMind 공식 블로그 — Gemma 4 출시 발표 (blog.google, 2026.04.02)
- Gemma 4 모델 카드 — 파라미터 구조·벤치마크·제한 사항 (ai.google.dev, 2026.04.02)
- Android Developers 블로그 — Gemma 4 AICore Developer Preview (android-developers.googleblog.com, 2026.04.02)
- Android Developers 블로그 — Gemma 4 로컬 에이전트 인텔리전스 (android-developers.googleblog.com, 2026.04.02)
- ZDNet Korea — 젬마4 온디바이스 AI 전략 분석 (zdnet.co.kr, 2026.04.03)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemma 4 관련 수치와 조건은 2026.04.02 기준 공식 발표 자료를 토대로 작성되었으며, 이후 구글의 업데이트로 내용이 달라질 수 있습니다. AICore Developer Preview는 사전 생산(pre-production) 단계로, 최종 프로덕션 성능과 다를 수 있습니다.











댓글 남기기