Gemma 4 온디바이스, 이 조건이면 못 씁니다

Published on

in

Gemma 4 온디바이스, 이 조건이면 못 씁니다
2026.04.02 기준 / Gemma 4 공식 출시

Gemma 4 온디바이스, 이 조건이면 못 씁니다

“스마트폰에서 GPT급 AI”라는 헤드라인이 넘쳐나고 있습니다. 막상 공식 문서를 열어보면 지금 당장 쓸 수 없는 조건이 꽤 많습니다. E2B·E4B 모델의 오디오 제한, AICore 지원 기기 조건, 사전 생산 모델의 실제 속도 차이까지 — 설레기 전에 이 부분을 먼저 확인하는 게 맞습니다.

오디오 최대 30초
E4B 배터리 60% 절감
26B 활성 파라미터 3.8B
Apache 2.0 상업 무제한


Gemma 4가 뭔지 30초 정리

2026년 4월 2일, 구글 딥마인드가 Gemma 4를 공개했습니다. 한 줄로 요약하면 — “제미나이 3와 같은 연구 기반으로 만들었지만, 가중치를 공개해서 누구나 자기 기기에서 돌릴 수 있는 오픈 모델”입니다. (출처: Google DeepMind 공식 블로그, 2026.04.02)

모델은 4가지 크기로 나뉩니다. E2B(Effective 2B)E4B(Effective 4B)는 스마트폰·라즈베리파이 같은 엣지 기기 대상이고, 26B MoE31B Dense는 워크스테이션이나 서버 환경을 겨냥합니다. 라이선스는 Apache 2.0, 즉 수정·상업화·재배포 모두 무제한입니다.

Gemma 4의 초기 다운로드 수치를 보면 — Gemma 1세대 출시 이후 개발자들이 누적 4억 회 이상 다운로드하며 10만 개 이상의 파생 모델(젬마버스)을 만들었습니다. (출처: Google DeepMind 공식 블로그, 2026.04.02) 커뮤니티의 크기가 이미 경쟁 오픈 모델과 다른 차원입니다.

💡 공식 발표문과 실제 모델 카드를 같이 놓고 보니 — “스마트폰에서 GPT급”이라는 표현이 어느 모델 기준인지가 중요합니다. E2B·E4B는 온디바이스, 26B·31B는 로컬 워크스테이션 기준이고 각각 쓸 수 있는 조건이 다릅니다.

▲ 목차로 돌아가기

온디바이스 모델 E2B·E4B, 실제 구조가 다릅니다

E2B와 E4B의 이름에 있는 “E”는 “Effective(유효)”를 뜻합니다. 실제 총 파라미터는 E2B가 5.1B, E4B가 8B인데, 추론 시 활성화되는 파라미터는 각각 2.3B, 4.5B에 그칩니다. (출처: Gemma 4 모델 카드, ai.google.dev, 2026.04.02) 나머지 파라미터는 Per-Layer Embeddings(PLE)라는 구조에 쓰이는데, 이건 토큰 조회용으로만 동작하기 때문에 실제 연산 부담이 크지 않습니다.

쉽게 말하면 — 총 파라미터가 8B여도 실제 연산 부담은 4.5B 수준으로 작동한다는 뜻입니다. 모바일 기기에서 메모리와 배터리를 아낄 수 있는 핵심 구조가 여기서 나옵니다.

모델 총 파라미터 유효(활성) 파라미터 컨텍스트 오디오 지원
E2B 5.1B 2.3B 128K ✅ (최대 30초)
E4B 8B 4.5B 128K ✅ (최대 30초)
26B MoE 25.2B 3.8B 256K ❌ 없음
31B Dense 30.7B 30.7B (전체) 256K ❌ 없음

(출처: Gemma 4 모델 카드 — ai.google.dev/gemma/docs/core/model_card_4, 2026.04.02)

한 가지 눈여겨볼 부분 — 오디오 입력은 E2B·E4B에서만 됩니다. 더 큰 모델인 26B나 31B에는 오디오 지원이 아예 없습니다. 구글이 음성 기능을 온디바이스 전용으로 설계한 셈인데, 이 선택의 의미는 다음 섹션에서 이어집니다.

▲ 목차로 돌아가기

E4B가 31B보다 빠른 이유 — 숫자로 확인됩니다

“파라미터가 작으면 성능이 낮을 것”이라는 예상과 달리, AIME 2026 수학 벤치마크에서 Gemma 4 E2B는 37.5%를 기록했습니다. 반면 이전 세대 Gemma 3 27B는 20.8%에 머물렀습니다. (출처: Gemma 4 모델 카드, ai.google.dev/gemma/docs/core/model_card_4) 크기 기준으로 약 10배 이상 큰 모델을 2B급이 앞서는 결과입니다.

속도 측면에서도 흥미롭습니다. 26B MoE 모델은 총 파라미터가 25.2B이지만, 추론 시 실제로 활성화되는 파라미터는 3.8B뿐입니다. (출처: 위 동일) 8개 전문가(expert) 그룹 중 일부만 선택적으로 켜지는 MoE 구조 때문입니다. 실제 연산 속도는 4B 모델과 비슷한 수준으로 동작합니다.

💡 벤치마크 수치를 크기별로 정렬해 보면 — E2B(2.3B 유효)가 Gemma 3 27B를 AIME에서 앞섭니다. 단순히 “더 작으면 더 나쁘다”가 아닌, 설계 방식이 결과를 바꾼 사례입니다.

벤치마크 E2B E4B Gemma 3 27B 31B
AIME 2026 37.5% 42.5% 20.8% 89.2%
MMLU Pro 60.0% 69.4% 67.6% 85.2%
LiveCodeBench v6 44.0% 52.0% 29.1% 80.0%

(출처: Gemma 4 모델 카드 — ai.google.dev/gemma/docs/core/model_card_4, 2026.04.02 / 붉은색 = Gemma 3 27B, 비교 기준)

MMLU Pro 기준으로 E4B(69.4%)가 Gemma 3 27B(67.6%)를 앞섭니다. 온디바이스 AI가 “클라우드 AI의 보조”를 넘어 직접 경쟁 가능한 수준에 진입한 것입니다.

▲ 목차로 돌아가기

오디오는 30초, 비디오는 60초 — 지금 이 조건이 있습니다

구글 공식 모델 카드에 딱 이렇게 나옵니다. “오디오는 최대 30초, 비디오는 초당 1프레임 처리 기준 최대 60초까지 지원한다.” (출처: Gemma 4 모델 카드, ai.google.dev/gemma/docs/core/model_card_4) 30초라는 수치는 일반 대화에선 충분할 수 있지만, 회의 녹음 요약이나 팟캐스트 분석처럼 길이가 정해진 콘텐츠에는 바로 걸리는 조건입니다.

오디오 포맷과 관련해서는 자동 음성 인식(ASR)과 음성 번역(AST) 두 가지를 지원하지만, 공식 문서가 별도 포맷 제한이나 샘플레이트 조건을 따로 명시하지 않았습니다. 긴 녹음을 쪼개서 넣는 방법이 현재 가장 현실적인 우회 방법입니다.

비디오 처리는 초당 1프레임을 기준으로 하기 때문에, 60초짜리 영상이 들어오면 내부적으로 60장의 이미지를 순차적으로 처리하는 구조입니다. 이미지 한 장당 할당되는 시각 토큰 예산(visual token budget)이 70~1,120 사이에서 설정 가능한데, 낮은 예산(70~140)을 쓰면 속도가 빨라지는 대신 작은 글씨 인식이나 세밀한 문서 파싱에서 정확도가 낮아집니다. (출처: 위 동일)

💡 30초라는 오디오 제한은 실제로 어떤 의미일까요 — 한국어 기준 보통 말하기 속도로 30초면 약 250~300자 분량입니다. 짧은 음성 명령이나 단문 메모 입력엔 충분하지만, 강의나 회의 클립 처리는 지금 단계에서 불가능합니다.

▲ 목차로 돌아가기

AICore Developer Preview, 모든 기기에서 안 됩니다

안드로이드 앱에서 Gemma 4를 직접 구동하려면 구글의 AICore Developer Preview를 통해야 합니다. 문제는 이게 모든 안드로이드 기기에서 되지 않는다는 점입니다. 구글 공식 문서는 “AICore 지원 기기(AICore-enabled devices)에서만 ML Kit GenAI Prompt API가 동작한다”고 명확하게 밝히고 있습니다. (출처: Android Developers 블로그 — android-developers.googleblog.com/2026/04/AI-Core-Developer-Preview)

현재 AICore를 지원하는 칩셋은 구글·미디어텍·퀄컴의 최신 세대 AI 가속기가 탑재된 기기로 제한됩니다. 지원되지 않는 기기에서는 CPU 기반으로 모델이 실행되는데, 공식 문서는 이 경우 “최종 프로덕션 성능을 대표하지 않는다”고 직접 명시했습니다. CPU에서 돌리면 느리고 배터리를 많이 쓴다는 뜻입니다.

AICore 미지원 기기에서 E2B·E4B를 테스트하고 싶다면 구글 플레이에 있는 AI Edge Gallery 앱이 현실적인 대안입니다. 다만 이것도 아직 사전 생산(pre-production) 모델이라, 공식 문서가 “느리고 정확도가 낮을 수 있으며 시스템 안정성과 저장 공간에 영향을 줄 수 있다”고 경고하고 있습니다.

⚠️ 지금 바로 쓸 수 없는 조건 요약
① AICore 미지원 기기 → CPU 실행(느림, 배터리 소모 증가)
② Developer Preview 단계 → 프로덕션 품질 아님
③ tool calling·structured output·thinking mode → Prompt API에서 아직 미지원, 추후 업데이트 예정
(출처: Android Developers 블로그, 2026.04.02)

구글은 올해 하반기 출시될 플래그십 안드로이드 기기에 Gemini Nano 4(Gemma 4 기반)를 탑재할 예정이라고 밝혔습니다. 지금 단계는 개발자가 앱을 미리 준비하는 시기이지, 일반 사용자가 즉시 활용하는 시기가 아닙니다.

▲ 목차로 돌아가기

31B·26B와 E4B·E2B, 뭘 선택해야 하는지 기준이 있습니다

Gemma 4 네 가지 모델은 “성능 순서대로 고르면 된다”는 식으로 접근하면 돈과 시간을 낭비합니다. 각 모델은 설계 목적 자체가 다릅니다. 26B MoE는 “전체 파라미터의 15%만 켜서 4B 속도로 25B 퀄리티를 내는” 구조이고, 31B Dense는 “모든 파라미터를 다 쓰면서 최고 품질을 내는” 구조입니다. (출처: Google DeepMind 공식 블로그, 2026.04.02)

온디바이스 관점에서는 E2B·E4B만 선택지입니다. E4B는 구글 안드로이드 팀 블로그에서 “E2B보다 3배 느리지만 더 복잡한 추론 작업에 적합”하다고 설명합니다. (출처: Android Developers 블로그, 2026.04.02) 반대로 E2B는 속도가 최우선일 때 — 예를 들어 실시간 자막, 빠른 OCR, 간단한 명령어 처리에 맞습니다.

선택 기준 E2B E4B 26B MoE 31B Dense
실행 환경 스마트폰 스마트폰 게이밍 PC·워크스테이션 H100 1장 이상
오디오 지원
컨텍스트 길이 128K 128K 256K 256K
미세조정 가능
배터리 절감 최대 60% 최대 60% 해당 없음 해당 없음

(출처: Gemma 4 모델 카드 및 Android Developers 블로그, 2026.04.02 / 배터리 절감 수치는 이전 버전 대비 기준)

Ollama에서 로컬 실행 시 26B MoE는 단일 소비자용 GPU에서도 동작합니다. 비양자화(BF16) 가중치 기준 26B는 약 52GB, 31B는 약 62GB의 GPU 메모리가 필요하지만, int4 양자화 버전은 26B 기준 약 13~15GB 수준으로 떨어집니다. (추정 근거: 모델 카드 파라미터 수 및 4비트 양자화 계산식 기반)

💡 26B MoE가 특별히 흥미로운 이유 — 25.2B의 총 파라미터 중 추론 시 3.8B만 활성화된다는 것은, RTX 3090(24GB VRAM)으로도 양자화 없이 돌릴 수 있는 가능성을 열어줍니다. 아직 커뮤니티 검증이 진행 중이지만 공식 모델 카드 수치가 이 방향을 가리킵니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. Gemma 4 온디바이스 모델을 지금 당장 스마트폰에서 쓸 수 있나요?
지금은 개발자 대상 AICore Developer Preview 단계입니다. 일반 사용자 대상 배포는 구글이 2026년 하반기 플래그십 안드로이드 기기에 Gemini Nano 4(Gemma 4 기반)를 탑재할 때 이루어질 예정입니다. 현재는 AICore 지원 기기에서 베타 앱으로 테스트만 가능합니다.
Q2. Gemma 4 E2B·E4B의 오디오 30초 제한은 왜 있는 건가요?
모바일 기기의 메모리와 배터리 제약을 고려한 설계 선택입니다. 오디오 인코더(약 300M 파라미터)가 음성을 처리하는 방식이 긴 오디오일수록 메모리 부하가 급격히 올라가기 때문입니다. 구글이 별도 이유를 공식 문서에서 밝히지 않았으나, 온디바이스 제약 특성상 이 한도가 설정된 것으로 보입니다. 긴 오디오는 30초 단위로 분할 처리하는 방법이 현재로선 유일한 대안입니다.
Q3. 26B MoE와 31B Dense 중 어떤 걸 선택해야 하나요?
빠른 추론 속도가 우선이면 26B MoE가 맞습니다. 추론 시 활성 파라미터가 3.8B에 불과해 실제 속도는 4B 모델과 비슷합니다. 반면 최고 품질이 필요한 복잡한 추론, 코딩, 미세조정 기반 모델 개발에는 31B Dense가 더 적합합니다. 31B은 모든 파라미터를 다 사용하므로 H100 80GB 단일 GPU에서 비양자화 실행이 가능합니다.
Q4. Gemma 4는 상업적으로 써도 되나요?
네, Apache 2.0 라이선스로 공개되어 수정, 상업화, 재배포 모두 무제한으로 가능합니다. 이전 Gemma 1·2는 별도 Gemma Terms를 적용해 상업적 활용에 조건이 있었지만, Gemma 4부터 Apache 2.0으로 전환됐습니다. (출처: Google DeepMind 공식 블로그, 2026.04.02) 다만 모델 안전 정책과 관련한 사용 지침은 여전히 준수해야 합니다.
Q5. Gemma 4 모델의 학습 데이터 기준일은 언제인가요?
공식 모델 카드 기준, 학습 데이터의 컷오프 날짜는 2025년 1월입니다. (출처: Gemma 4 모델 카드, 2026.04.02) 그 이후의 정보는 학습에 반영되지 않으며, 최신 사건이나 2025년 2월 이후 정책 변경 등은 모델이 알지 못합니다. RAG나 검색 연동 구조를 함께 사용하는 것이 권장됩니다.

▲ 목차로 돌아가기

마치며 — 총평

Gemma 4가 분명히 인상적인 이유가 있습니다. E2B가 Gemma 3 27B보다 수학 벤치마크에서 앞서고, Apache 2.0으로 상업 활용 문턱을 없앴으며, 구글과 퀄컴·미디어텍이 손을 잡아 최신 스마트폰에서 배터리를 60% 덜 쓰면서 AI를 돌릴 길을 열었습니다.

그러나 지금 이 시점에 “온디바이스 AI를 바로 앱에 넣을 수 있다”고 받아들이면 오해가 생깁니다. AICore 지원 기기 조건, tool calling·thinking mode 미지원, 오디오 30초 제한, 비디오 60초 제한 — 이것들이 개발자가 프로덕션 단계에서 맞닥뜨릴 실제 조건들입니다. 지금은 앱을 미리 설계하고 프롬프트를 다듬는 준비 기간으로 활용하는 것이 현실적입니다.

하반기 플래그십 안드로이드 기기에 Gemini Nano 4가 탑재되면 지금 Developer Preview에서 작성한 코드가 그대로 이어진다는 게 구글의 약속입니다. 조건을 정확히 파악하고 들어가는 쪽이 나중에 재작업할 일이 없습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google DeepMind 공식 블로그 — Gemma 4 출시 발표 (blog.google, 2026.04.02)
  2. Gemma 4 모델 카드 — 파라미터 구조·벤치마크·제한 사항 (ai.google.dev, 2026.04.02)
  3. Android Developers 블로그 — Gemma 4 AICore Developer Preview (android-developers.googleblog.com, 2026.04.02)
  4. Android Developers 블로그 — Gemma 4 로컬 에이전트 인텔리전스 (android-developers.googleblog.com, 2026.04.02)
  5. ZDNet Korea — 젬마4 온디바이스 AI 전략 분석 (zdnet.co.kr, 2026.04.03)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemma 4 관련 수치와 조건은 2026.04.02 기준 공식 발표 자료를 토대로 작성되었으며, 이후 구글의 업데이트로 내용이 달라질 수 있습니다. AICore Developer Preview는 사전 생산(pre-production) 단계로, 최종 프로덕션 성능과 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기