Llama 4 Maverick, 써봤더니 벤치마크와 달랐습니다

Published on

in

Llama 4 Maverick, 써봤더니 벤치마크와 달랐습니다

2025.04.05 공식 출시 기준
Llama 4 Maverick 17B-128E
MoE 아키텍처

Llama 4 Maverick, 써봤더니 벤치마크와 달랐습니다

메타가 “GPT-4o를 이겼다”고 발표한 그 모델, 공식 출시 버전이 맞는지 먼저 따져봐야 합니다. LMArena ELO 1417점짜리 모델과 실제 다운로드 가능한 Llama 4 Maverick은 애초에 다른 버전이었습니다. 공식 문서, 독립 벤치마크, 가격 데이터를 교차해서 살펴봤습니다.

17B
활성 파라미터
400B
총 파라미터
128
전문가(Expert) 수
$0.24
입력 1M 토큰 중간가

Llama 4 Maverick가 뭔지 30초 정리

메타가 2025년 4월 5일에 공개한 Llama 4 Maverick은 MoE(Mixture-of-Experts) 방식으로 설계된 멀티모달 오픈웨이트 모델입니다. 총 파라미터는 400B이지만, 실제 추론 시에는 17B 활성 파라미터만 작동합니다. 나머지 파라미터는 메모리에 올라와 있지만 모든 토큰마다 다 돌리지는 않는 구조입니다.

128개의 전문가 레이어(routed expert)와 1개의 공유 전문가(shared expert)로 구성되어 있고, 각 토큰은 공유 전문가와 128개 중 1개로만 라우팅됩니다. 이 덕분에 실질적인 추론 비용이 400B 풀 밀집 모델 대비 훨씬 낮습니다. 메타 공식 블로그 기준으로 단일 NVIDIA H100 DGX 호스트 한 대로 서빙이 가능합니다.

텍스트·이미지·비디오를 함께 처리하는 네이티브 멀티모달 구조로, 훈련 데이터는 30조 토큰 이상이며 Llama 3 대비 2배 이상 규모입니다. (출처: Meta AI 공식 블로그, 2025.04.05)

💡 공식 발표문과 실제 배포 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 400B 모델이라고 부르지만 실제 연산에 투입되는 파라미터는 17B입니다. 추론 비용 구조 자체가 다른 400B급 모델과 달리 움직입니다.

▲ 목차로 돌아가기

ELO 1417 모델과 공개 버전이 달랐던 이유

메타 공식 발표에서 “Llama 4 Maverick이 LMArena ELO 1417점으로 2위를 기록했다”고 밝혔습니다. 그런데 TechCrunch와 The Register가 2025년 4월 6~8일 사이에 보도한 내용을 보면, LMArena에 제출된 모델은 공개 배포 버전이 아니라 Llama-4-Maverick-03-26-Experimental이라는 별도 버전이었습니다.

LMArena 측은 “Meta의 정책 해석이 우리가 모델 제공사에게 기대하는 기준과 맞지 않았다”고 공식 성명을 냈습니다. 이 실험 버전은 이모지를 자주 쓰고 응답이 매우 길게 구성되는 특성을 보였는데, LMArena의 평가 방식(인간 투표)에 유리하도록 튜닝된 것으로 분석됩니다. (출처: The Register, 2025.04.08)

💡 LMArena의 Style Control 기능을 켜면 이야기가 달라집니다 — 응답 길이와 포맷 효과를 제거하면 Maverick 실험 버전의 순위는 2위에서 5위로 내려갑니다. (출처: The Decoder, Artificial Analysis, 2025.04.12)

메타 측은 이 사실을 부정하지 않았습니다. 대변인은 “우리는 다양한 커스텀 변형을 실험한다. Llama-4-Maverick-03-26-Experimental은 대화 최적화 버전으로 LMArena에서도 잘 작동한다”고 답했습니다. 훈련 데이터에 벤치마크 테스트셋을 포함시켰다는 의혹에 대해서는 메타 GenAI 책임자 Ahmad Al-Dahle가 직접 “그런 일은 없었다”고 부인했습니다.

결과적으로 LMArena에는 실험 버전이 등재된 상태에서 성능 홍보가 이뤄졌고, 이후 LMArena 측은 공개 배포 버전을 별도 등록했습니다. 공개 버전은 2025년 4월 12일 기준 32위로 집계됐습니다. 같은 이름의 두 모델이 30계단 차이가 났습니다.

▲ 목차로 돌아가기

“1000만 토큰 처리” 주장, 실제론 어땠나

Llama 4 Scout가 업계 최고 수준인 10M(1000만) 토큰 컨텍스트 윈도우를 지원한다는 발표가 나왔습니다. Maverick도 1M(100만) 토큰 컨텍스트를 지원한다고 공식 발표됐습니다. 이 숫자만 보면 긴 문서 처리에서 압도적 우위를 가져야 합니다.

그런데 Fiction.live가 2025년 4월에 실시한 독립 벤치마크 결과는 달랐습니다. 120,000 토큰 길이의 복잡한 내러티브 이해 테스트에서 Gemini 2.5 Pro는 90.6% 정확도를 기록한 반면, Maverick은 28.1%, Scout는 15.6%에 그쳤습니다. 128K 이내 문서를 다루는 테스트에서도 일관된 처리가 어려웠다는 결과가 나왔습니다.

모델 공식 컨텍스트 120K 실측 정확도
Gemini 2.5 Pro 1M 토큰 90.6%
Llama 4 Maverick 1M 토큰 28.1%
Llama 4 Scout 10M 토큰 15.6%

(출처: Fiction.live Benchmark, 2025.04.06 / The Decoder, 2025.04.12)

컨텍스트 윈도우 숫자가 크다고 해서 실제 긴 문서를 잘 처리한다는 의미가 아닙니다. 이 표가 보여주는 건 하나입니다. 120K에서 이미 28%면, 실제 1M짜리 문서를 넣었을 때 뭘 얼마나 놓치는지는 직접 확인해봐야 합니다.

다만 메타 GenAI 팀은 초기 배포 당시 플랫폼별 구현 최적화가 완료되지 않았기 때문에 이런 결과가 나왔을 수 있다고 밝혔습니다. 이유가 타당한지는 아직 공식 후속 데이터가 나오지 않아 판단이 어렵습니다.

▲ 목차로 돌아가기

GPT-4o보다 10배 싼 게 맞긴 한데, 조건이 있습니다

가격 측면에서 Llama 4 Maverick은 실제로 저렴합니다. Artificial Analysis가 2025년 4월 집계한 중간 가격 기준으로 입력 $0.24/1M 토큰, 출력 $0.77/1M 토큰입니다. 이는 당시 GPT-4o 가격 대비 최대 10배 이상 저렴한 수준입니다.

API 제공사 입력 (1M 토큰) 출력 (1M 토큰) 컨텍스트
DeepInfra (FP8) $0.19
Groq ~$0.20 ~$0.60
Fireworks $0.22 $0.88 1.05M 토큰
Together.ai $0.27 $0.85 524K 토큰

(출처: Artificial Analysis, pricepertoken.com 기준 / 2025년 4~5월 집계 / 제공사별 FP8·FP16 설정에 따라 다를 수 있음)

같은 Maverick 모델이라도 제공사에 따라 지원 컨텍스트 길이가 다릅니다. Fireworks는 1.05M 토큰을, Together.ai는 524K 토큰을 지원합니다. 공식 스펙(1M)을 그대로 쓰고 싶다면 제공사를 가려서 선택해야 합니다.

한 가지 더 챙겨야 할 부분이 있습니다. Llama 4는 오픈소스이지만 상업용 사용 시 메타의 별도 상업 라이선스 조건이 적용됩니다. 월간 활성 사용자 7억 명을 초과하는 서비스는 메타에 별도 허가를 요청해야 합니다. (출처: Llama 4 커뮤니티 라이선스, llama.com)

▲ 목차로 돌아가기

MoE 구조가 주는 진짜 이점과 실제 배포 장벽

왜 MoE인가 — 비용 구조가 달라집니다

MoE(Mixture-of-Experts) 구조는 전체 파라미터를 매번 다 활성화하지 않습니다. Llama 4 Maverick 기준으로 400B 전체 파라미터 중 실제 추론에 쓰이는 건 17B입니다. 같은 400B급 밀집(Dense) 모델과 비교하면 추론 비용이 구조적으로 낮게 설계됩니다. Maverick의 활성 파라미터(17B)가 DeepSeek V3(37B)의 절반도 안 되는데 유사한 성능 구간에 들어온 이유가 여기 있습니다.

로컬 실행은 사실상 불가능합니다

그런데 이 400B 총 파라미터는 메모리에 전부 올라가 있어야 합니다. FP16 전체 로드 기준으로 약 145,000GB VRAM이 필요하고 H100 GPU 5,016개가 있어야 한다는 분석이 나왔습니다. (출처: Novita AI 분석, 2025.04) 이는 개인 개발자나 소규모 팀의 로컬 배포는 사실상 불가능하다는 의미입니다.

Int4 양자화를 적용하더라도 Llama 4 Scout조차 76.2GB VRAM을 요구한다는 실측 결과가 있습니다. H100 1장(80GB)으로는 Scout도 4K 컨텍스트에서 간신히 들어가는 수준입니다. (출처: 네이버 블로그 알파의 보고서, 2025.04.09)

💡 오픈소스라는 말만 보고 “무료로 내 서버에 올릴 수 있다”고 생각하면 당황합니다. API 형태로만 쓰는 게 현실적입니다. 직접 배포를 원한다면 DeepInfra, Groq 등 전용 인프라가 이미 최적화해 제공하는 방식을 쓰는 쪽이 훨씬 빠릅니다.

▲ 목차로 돌아가기

이 모델이 잘 맞는 용도, 잘 안 맞는 용도

잘 맞는 경우

Artificial Analysis의 Intelligence Index에서 Maverick은 일반 추론, 코딩, 수학 영역에서 고른 성능을 보였습니다. 비전(이미지 처리)을 함께 써야 하는 멀티모달 파이프라인에서 GPT-4o 수준의 품질을 훨씬 낮은 비용으로 처리할 수 있습니다. 창의적 글쓰기, 일반 채팅 어시스턴트 구축, 이미지 캡셔닝 등에서 가격 대비 성능이 두드러집니다.

200개 언어를 학습했고, 특히 100개 이상 언어에서 각각 10억 토큰 이상의 데이터로 훈련됐습니다. Llama 3 대비 10배 이상 다국어 토큰을 학습해 비영어권 언어 처리 품질도 개선됐습니다. (출처: Meta AI 공식 블로그, 2025.04.05)

기대보다 아쉬웠던 경우

120K 토큰 이상의 긴 문서 이해가 필요한 작업은 위 데이터에서 봤듯이 기대치를 크게 밑돌았습니다. Fiction.live 벤치마크 기준으로 Maverick의 장문 이해 정확도는 같은 컨텍스트에서 Gemini 2.5 Pro의 약 30% 수준에 그칩니다. 다중 문서 참조나 광범위한 코드베이스 전체를 한 번에 분석하는 용도는 지금 당장 메인으로 쓰기 어렵습니다.

코딩 에이전트나 SWE-bench 계열 작업도 마찬가지입니다. 출시 초기 SWE-bench 성능은 기대치를 밑돌았다는 실사용 보고가 Reddit과 Hacker News에 다수 올라왔습니다. 가격 메리트가 있지만 코딩 에이전트 용도로는 Claude Sonnet이나 GPT-4o 계열이 아직 안정적이라는 평이 많았습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Llama 4 Maverick은 한국어 처리 성능이 좋은가요?

메타 공식 발표에서 100개 이상 언어에 대해 각각 10억 토큰 이상 학습했다고 밝혔습니다. Llama 3 대비 다국어 토큰이 10배 이상 증가했기 때문에 한국어 처리 품질도 이전 세대보다 향상됐습니다. 다만 한국어 기준 독립 벤치마크 결과는 2026년 3월 시점 기준으로 공식 비교 데이터가 충분하지 않습니다.

Q2. Llama 4 Maverick과 Scout 중 뭘 써야 하나요?

일반적인 텍스트·이미지 처리나 코딩에는 Maverick이 높은 성능을 보였습니다. Scout는 단일 H100에서 작동 가능한 경량 구조(총 109B)로 비용이 더 낮지만, 복잡한 추론이나 긴 문서 처리에서는 Maverick 대비 크게 낮은 성능이 나왔습니다. 대부분의 API 서빙 환경에서는 Maverick을 먼저 시험해보는 쪽이 현실적입니다.

Q3. LMArena 2위 기록은 신뢰할 수 있는 데이터인가요?

그 순위는 공개 배포 버전이 아닌 실험 버전으로 측정된 것입니다. LMArena 측이 공개 버전을 별도 등록한 결과 32위로 집계됐고, Style Control 적용 시 실험 버전도 5위로 내려갑니다. 가중치를 두고 참고할 수는 있지만 이 점은 감안해야 합니다.

Q4. 상업적으로 사용할 때 라이선스 조건이 있나요?

있습니다. Llama 4는 메타의 커뮤니티 라이선스 하에 배포되며, 월간 활성 사용자 7억 명을 초과하는 서비스는 메타로부터 별도 허가를 받아야 합니다. 그 외에도 메타의 사용 정책에서 금지하는 용도는 적용 제한이 있으니 공식 라이선스 문서 확인이 필요합니다. (출처: llama.com/llama-downloads)

Q5. Llama 4 Behemoth는 언제 나오나요?

2025년 4월 공식 발표 당시 Llama 4 Behemoth는 아직 훈련 중이었습니다. 메타는 288B 활성 파라미터, 16개 전문가, 총 파라미터 약 2조 규모의 이 모델이 GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro를 STEM 벤치마크에서 앞선다고 밝혔습니다. 2026년 3월 기준 공식 배포 일정은 별도로 발표된 내용이 없습니다.

▲ 목차로 돌아가기

마치며 — 총평

Llama 4 Maverick은 분명히 가격 경쟁력이 있습니다. GPT-4o 대비 10배 이하의 비용으로 멀티모달 기능까지 쓸 수 있는 오픈웨이트 모델이 나왔다는 건 실질적인 변화입니다. 일반 추론, 창의적 글쓰기, 이미지 이해 같은 용도에서는 가격 대비 충분히 경쟁력이 있습니다.

그런데 “GPT-4o를 이겼다”는 벤치마크 수치를 그대로 가져다 쓰기 전에 한 번 더 생각해볼 필요가 있습니다. LMArena ELO 1417은 공개 배포 버전으로 달성한 숫자가 아니었습니다. 긴 문서 이해 성능도 지원 컨텍스트 수치보다 훨씬 낮은 수준이었습니다.

솔직히 말하면, 이 정도 가격에 이 정도 기능을 제공하는 오픈웨이트 모델이 나왔다는 사실 자체는 의미 있습니다. 하지만 어떤 작업에 쓸 건지 먼저 따져보고 소규모 테스트를 먼저 돌려보는 게 맞습니다. 벤치마크 숫자 하나로 전환 결정을 내리기엔 실측 데이터가 너무 다른 방향을 가리키고 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Meta AI 공식 블로그 — The Llama 4 herd: The beginning of a new era (2025.04.05)
  2. TechCrunch — Meta’s benchmarks for its new AI models are a bit misleading (2025.04.06)
  3. The Register — Meta accused of Llama 4 bait-and-switch to juice AI benchmark rank (2025.04.08)
  4. The Decoder — Meta’s Llama 4 models show promise on standard tests but struggle with long-context tasks (2025.04.12)
  5. Artificial Analysis — Llama 4 Maverick API Provider Benchmarking

⚠️ 본 포스팅은 2026년 3월 24일 기준으로 작성됐습니다. 메타의 Llama 4 모델 업데이트, API 제공사 가격 정책, 라이선스 조건은 서비스 정책 변경에 따라 달라질 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 정확한 최신 정보는 공식 채널에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기