2026.04.05 릴리스 기준
Llama 4 Maverick 17B-128E-Instruct
MoE 아키텍처

Llama 4 Maverick API, $0.19와 $0.49의 차이 직접 재봤습니다

공식 발표문엔 분산 추론 기준 $0.19/Mtok이라고 나와 있습니다. 막상 단일 H100 호스트로 API를 붙여보면 $0.30~$0.49/Mtok으로 올라갑니다. 그리고 LMArena에서 2위를 찍었던 그 버전은, 공개 릴리스와 다른 모델이었습니다.

$0.15/M

입력 토큰 (공식 최저가)

28.1%

120K 토큰 장문 이해 정확도

32위

비수정 버전 LMArena 실제 순위

API 비용이 두 가지인 이유

공식 발표문에 이미 두 숫자가 들어 있습니다

llama.com 공식 페이지와 Meta AI 발표 블로그에는 Llama 4 Maverick의 추론 비용을 직접 제시하고 있습니다. 그런데 같은 공식 문서 안에 숫자가 두 개 존재합니다. 분산 추론 기준 약 $0.19/Mtok(입출력 3:1 블렌디드), 단일 H100 DGX 호스트 기준 $0.30~$0.49/Mtok입니다. (출처: llama.com 공식 모델 페이지, 2026.04.05 기준)

차이가 나는 이유는 MoE(Mixture of Experts) 아키텍처 때문입니다. Maverick은 활성 파라미터가 170억 개지만, 전체 파라미터는 4,000억 개입니다. 이 4,000억 개를 전부 메모리에 올려두고 토큰당 170억 개만 연산에 참여시키는 구조라, GPU를 여러 대에 분산하면 단가가 낮아집니다.

결론부터 말씀드리면, API 제공업체를 통해 접근할 때 단가는 실제로 $0.15~$0.49 사이에서 폭넓게 달라집니다. (출처: pricepertoken.com 기준 2026.03.28 업데이트) 즉, “Llama 4 Maverick은 싸다”는 말 자체가 어떤 환경에서 쓰느냐에 따라 절반 이상 달라질 수 있습니다.

💡 공식 발표문과 실제 API 호출 환경을 나란히 놓고 보니, 같은 모델인데 가격이 2.6배 차이 나는 구조가 눈에 들어왔습니다.
분산 추론($0.19) ↔ 단일 호스트($0.49): 동일 모델, 동일 입출력, 다른 가격.

▲ 목차로 돌아가기

LMArena 2위는 다른 모델이었습니다

릴리스 당일, 실제 공개 버전의 순위는 32위였습니다

Maverick 출시 직후 LMArena(당시 Chatbot Arena) 2위를 기록했다는 발표가 있었습니다. Meta AI 공식 블로그에도 “실험 채팅 버전이 LMArena ELO 1417을 기록했다”는 문장이 그대로 나와 있습니다. (출처: ai.meta.com/blog/llama-4-multimodal-intelligence/, 2025.04.05)

문제는 벤치마크에 제출된 모델이 Llama-4-Maverick-03-26-Experimental이었다는 점입니다. 이는 사람의 선호도 평가에 최적화된 별도 커스텀 버전으로, Hugging Face와 llama.com을 통해 다운로드 가능한 공개 버전과는 다른 모델입니다. LMArena 측은 공식 성명에서 “Meta의 정책 해석이 우리가 기대하는 기준과 달랐다”고 밝혔습니다. (출처: LMArena 공식 발표, 2025.04.08)

이후 LMArena가 비수정 공개 릴리스 버전(Llama-4-Maverick-17B-128E-Instruct)으로 별도 테스트를 진행한 결과, 순위는 32위로 집계됐습니다. (출처: TechCrunch/Slashdot 보도, 2025.04.13) 2위와 32위의 간격이 큽니다.

💡 LMArena의 “스타일 컨트롤” 기능(응답 길이·포맷 효과를 제거하는 옵션)을 켜면 Maverick은 2위에서 5위로 내려갑니다. 내용보다 형식이 점수에 기여했다는 의미입니다. (출처: the-decoder.com, 2025.04.12)

▲ 목차로 돌아가기

1M 토큰 컨텍스트, 실제로는 달랐습니다

128K 내에서 정확도 28.1%, Gemini 2.5 Pro는 같은 조건에서 90.6%

Maverick의 공식 컨텍스트 창은 100만 토큰(1M)입니다. 긴 문서를 통째로 넣을 수 있다는 게 핵심 셀링포인트 중 하나였습니다. 그런데 독립 평가 플랫폼 Fiction.live가 복잡한 장문 이해 테스트를 돌린 결과가 달랐습니다.

120,000 토큰 구간에서 Maverick의 정확도는 28.1%였습니다. 같은 조건에서 Gemini 2.5 Pro는 90.6%를 기록했습니다. (출처: Fiction.live 벤치마크, the-decoder.com 인용, 2025.04.12) 이 수치가 의미하는 건 단순합니다 — 컨텍스트 창이 크다고 해서 긴 문서를 실제로 잘 처리한다는 뜻은 아닙니다.

Meta 측 Ahmad Al-Dahle(생성 AI 총괄)은 “초기 불일치는 구현 과정의 일시적 문제”라고 해명했습니다. 공식적으로 장문 성능 저하의 원인을 따로 밝히지는 않았습니다. 실사용에서 장문 처리가 핵심이라면 128K를 기준으로 쪼개 처리하는 방식이 현재로선 더 안정적입니다.

모델	광고 컨텍스트	120K 정확도	비고
Llama 4 Maverick	1M 토큰	28.1%	Fiction.live 독립 평가
Llama 4 Scout	10M 토큰	15.6%	동일 평가
Gemini 2.5 Pro	1M 토큰	90.6%	동일 평가

출처: Fiction.live 장문 이해 벤치마크, the-decoder.com 보도 (2025.04.12)

▲ 목차로 돌아가기

GPT-4o·Claude 3.5 Sonnet과 비용 직접 비교

같은 성능 구간에서 비용 차이를 계산식으로 뽑아봤습니다

AnotherWrapper 비교 데이터(2026.03.16 기준)에 따르면 Claude 3.5 Sonnet의 입력 단가는 $3.00/Mtok, Llama 4 Maverick은 $0.22/Mtok입니다. 출력은 각각 $15.00/$0.88입니다. 블렌디드(입출력 1:1 기준)로 비교하면 Claude 3.5 Sonnet $18.00 vs Maverick $1.10으로, 약 16.4배 차이가 납니다.

실제 사용 시나리오로 환산하면 이렇습니다. 월 1,000만 토큰 입력·1,000만 토큰 출력을 처리하는 서비스 기준:

Claude 3.5 Sonnet: ($3.00 × 10) + ($15.00 × 10) = $180/월
Llama 4 Maverick (분산 추론): ($0.22 × 10) + ($0.88 × 10) = $11/월
Llama 4 Maverick (단일 호스트): ($0.49 × 10) + ($0.49 × 10) ≈ 약 $9.8~$14.8/월 (추정, 출력 단가 공식 미공개로 블렌디드 역산)
출처: AnotherWrapper 비교 데이터(2026.03.16), llama.com 공식 페이지 추정치 포함

비용만 보면 Maverick이 압도적으로 유리합니다. 다만 GPT-4o와의 비교에서는 “Together AI 기준 Maverick이 356% 저렴하다”는 수치가 있습니다. (출처: AnotherWrapper GPT-4o vs Llama 4 Maverick 비교 페이지, 2026.03.13) 356%라는 숫자는 제공업체마다 달라지므로, 실제 사용 전 각 API 제공업체의 단가를 직접 확인하는 게 좋습니다.

▲ 목차로 돌아가기

벤치마크 점수가 다르게 나오는 구조적 이유

채점 방식 하나가 Intelligence Index를 36에서 43으로 올렸습니다

Artificial Analysis는 출시 직후 Maverick의 Intelligence Index를 49점으로 집계했습니다. 이후 채점 기준을 수정했습니다. 객관식 문항에서 “The best answer is A”처럼 형식화된 응답을 정답으로 인정하는 방식으로 바꿨더니, Scout 점수는 36에서 43으로, Maverick은 49에서 50으로 올라갔습니다. (출처: Artificial Analysis, the-decoder.com 인용, 2025.04.12)

이게 중요한 이유가 있습니다. Maverick은 MoE 구조 덕분에 응답 속도가 빠르고(출력 약 127 tok/s, 중간 지연 0.46초), 응답 형식을 명확하게 구조화하는 경향이 있습니다. (출처: pricepertoken.com, 2026.03.28) 이 특성이 특정 채점 방식에서는 유리하게 작용하지만, 내러티브 이해처럼 형식이 아니라 내용을 평가하는 벤치마크에선 약점이 됩니다.

Aider Polyglot 코딩 벤치마크에서는 Claude 3.5 Sonnet 51.6%에 비해 Maverick이 15.6%로 상당한 차이가 있습니다. (출처: AnotherWrapper 비교 데이터, 2026.03.16) 코딩 중심 프로덕션 환경에서는 이 간격을 직접 체감할 수 있습니다.

▲ 목차로 돌아가기

Maverick이 실제로 유리한 상황과 그렇지 않은 상황

비용이 결정적인 스케일과 멀티모달 처리에서 먼저 고려할 만합니다

Maverick이 실제로 강한 구간은 분명합니다. GPQA Diamond 69.8%, MMMU(이미지+텍스트 복합 이해) 73.4%처럼 일반 추론과 멀티모달 이해 벤치마크에서 Claude 3.5 Sonnet과 대등하거나 앞섭니다. (출처: AnotherWrapper 비교 데이터, 2026.03.16) 그러면서 비용은 16분의 1 수준이니, 대량 처리·이미지 분석·다국어 요약 파이프라인에선 명확한 선택지가 됩니다.

반면 주의가 필요한 상황도 있습니다. 장문 문서 전체를 이해해야 하는 RAG 파이프라인, 복잡한 멀티스텝 코딩 작업, 그리고 응답 일관성이 중요한 에이전트 워크플로우에서는 실제 체감 품질이 벤치마크 수치보다 낮게 나올 수 있습니다. 공식 발표문이 별도 이유를 밝히지 않은 장문 처리 정확도 문제는 아직 개선 여부가 공개되지 않은 부분입니다.

오픈웨이트 모델이라는 점도 고려할 수 있습니다. llama.com과 Hugging Face에서 직접 다운로드해 자체 인프라에서 구동하면 API 비용 자체가 사라집니다. H100 한 대에서 돌릴 수 있는 구조(Int4 양자화 기준 Scout, DGX 단일 호스트 기준 Maverick)라는 점은 온프레미스 운영 조직에 현실적인 옵션입니다. (출처: Meta AI 공식 블로그, 2025.04.05)

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Llama 4 Maverick API는 무료로 사용할 수 있나요?

llama.com과 Meta AI(meta.ai) 웹에서 채팅 방식으로는 무료 접근이 가능합니다. API 키를 통한 상업적 사용은 제공업체마다 단가가 다르며, 최저 $0.15/Mtok(입력) 수준에서 시작합니다. 직접 모델 파일을 다운로드해 자체 서버에서 구동하면 API 비용은 발생하지 않습니다.

Q2. LMArena에서 2위를 했다는 게 사실인가요?

실험 버전(Llama-4-Maverick-03-26-Experimental)이 2위를 기록한 건 사실입니다. 다만 이후 비수정 공개 릴리스 버전으로 재테스트한 결과는 32위였습니다. (출처: Slashdot/TechCrunch 보도, 2025.04.13) LMArena 측은 Meta가 커스텀 최적화 모델을 제출했다고 공식 발표했습니다.

Q3. 1M 토큰 컨텍스트 창은 실제로 쓸 수 있나요?

기술적으로는 지원합니다. 다만 120K 토큰 구간에서 장문 이해 정확도가 28.1%로 낮게 나온 독립 평가 결과가 있습니다. 긴 문서 처리가 핵심 요구사항이라면 현재로선 128K 이하로 쪼개 처리하는 방식이 더 안정적입니다.

Q4. Llama 4 Maverick과 Scout 중 어떤 걸 써야 하나요?

멀티모달(이미지+텍스트) 처리, 복잡한 추론, 대화 품질이 중요하다면 Maverick입니다. 단순 검색·요약·가벼운 분류 작업에서 비용을 더 낮추고 싶다면 Scout가 유리합니다. Scout는 단일 H100에 Int4 양자화로 올릴 수 있어 인프라 비용도 낮습니다.

Q5. 코딩 용도로 쓸 때 GPT-4o 대신 Maverick이 가능한가요?

단순 코드 완성·번역 수준에서는 충분히 대체 가능합니다. 그러나 Aider Polyglot 벤치마크 기준 15.6%로 Claude 3.5 Sonnet(51.6%)과 격차가 큽니다. 복잡한 멀티파일 리팩토링이나 에이전트 코딩 작업에서는 품질 차이를 체감할 수 있습니다. 비용 절감 목적의 보조 파이프라인으로 먼저 테스트해보는 방식을 권장합니다.

▲ 목차로 돌아가기

마치며

Llama 4 Maverick은 비용 효율 면에서 2026년 3월 현재 기준으로도 여전히 상위권입니다. 입력 $0.15/Mtok이라는 공식 최저가는 실제로 달성 가능한 숫자이고, Claude 3.5 Sonnet 대비 16배 이상의 비용 차이는 스케일 서비스에서 실질적인 차이를 만들어냅니다.

다만 가격표 하나만 보고 선택하면 기대와 달라질 수 있는 부분이 분명히 있습니다. 분산 추론과 단일 호스트의 가격 차이, LMArena 순위가 어떤 버전을 기준으로 한 건지, 그리고 100만 토큰이라는 컨텍스트 창이 실제 이해 정확도와 같은 말이 아니라는 점 — 이 세 가지는 직접 확인해보지 않으면 놓치기 쉬운 지점입니다.

오픈웨이트 모델이라 Hugging Face에서 직접 내려받아 테스트할 수 있다는 게 가장 큰 장점입니다. 비용 걱정 없이 먼저 써보고 판단할 수 있는 구조 자체는, 어떤 클로즈드 모델도 제공하지 않는 방식입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Meta AI 공식 블로그 — Llama 4 출시 발표 ai.meta.com/blog/llama-4-multimodal-intelligence/
llama.com 공식 모델 페이지 llama.com/models/llama-4/
The Decoder — Llama 4 장문 처리 성능 평가 the-decoder.com
AnotherWrapper — Claude 3.5 Sonnet vs Llama 4 Maverick 가격 비교 anotherwrapper.com
PricePerToken — Llama 4 Maverick API 단가 (2026.03.28 기준) pricepertoken.com

본 포스팅은 2026년 3월 29일 기준으로 수집된 공개 정보를 토대로 작성했습니다. Llama 4 Maverick의 API 단가, 벤치마크 점수, 기능 사양은 Meta 및 API 제공업체의 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 실제 의사결정 전 공식 문서를 직접 확인하시기 바랍니다.

Llama 4 Maverick API, $0.19와 $0.49의 차이 직접 재봤습니다

Llama 4 Maverick API, $0.19와 $0.49의 차이 직접 재봤습니다