Meta AI 공식 블로그
MoE 아키텍처
Llama 4 Scout, 1GPU면 된다고요?
이 숫자 먼저 보세요
Meta가 2025년 4월 5일 기습 공개한 Llama 4 Scout는 “단일 H100 GPU, 10M 토큰 컨텍스트, 무료 오픈소스”라는 세 가지 수식어로 화제가 됐습니다. 그런데 공식 문서를 직접 열어보면 이 세 문장 사이에 쉽게 지나치는 조건들이 붙어 있습니다. 숫자부터 먼저 확인하고 판단해도 늦지 않습니다.
Scout와 Maverick, 뭐가 어떻게 다른가
Llama 4는 세 모델 가족으로 구성됩니다. 현재 다운로드 가능한 Scout와 Maverick, 그리고 아직 훈련 중인 Behemoth입니다. Scout와 Maverick은 같은 17B 활성 파라미터를 공유하지만 구조가 완전히 다릅니다. (출처: Meta AI 공식 블로그, 2025.04.05)
| 항목 | Scout | Maverick |
|---|---|---|
| 활성 파라미터 | 17B | 17B |
| 총 파라미터 | 109B | 400B |
| 전문가(Expert) 수 | 16개 | 128개 |
| 공식 컨텍스트 | 10M 토큰 | 1M 토큰 |
| 단일 GPU 가동 | H100 1대 (INT4 조건) | H100 DGX 호스트 1대 |
| API 비용 (Meta 추산) | 약 $0.3/Mtok | 약 $0.19~0.49/Mtok |
두 모델 모두 MoE(Mixture-of-Experts) 아키텍처 덕분에 토큰 처리 시 전체 파라미터가 아닌 일부만 활성화됩니다. Scout는 16개의 전문가 중 하나를, Maverick은 128개 중 하나를 씁니다. 활성 파라미터가 같아도 총 파라미터가 4배 차이나는 이유가 여기 있습니다.
10M 컨텍스트, 공식 문서에 조건이 붙어 있습니다
💡 공식 발표문과 실제 배포 환경을 같이 놓고 보니 이런 간극이 보였습니다. 10M이라는 숫자가 얼마나 현실과 거리가 있는지를 Meta 본인의 노트북 코드에서 확인할 수 있었습니다.
Scout의 10M 토큰 컨텍스트는 기술적으로 사실입니다. 다만 공식 GitHub 예제 노트북(build_with_llama_4.ipynb)에는 이렇게 적혀 있습니다. “1.4M 토큰 컨텍스트를 처리하려면 H100 GPU 8대가 필요합니다.” (출처: meta-llama/llama-cookbook, GitHub)
현실은 더 빡셉니다. Groq, Fireworks 같은 서드파티 서비스들은 Scout의 컨텍스트를 최대 128,000토큰으로 제한했고, Together AI는 328,000토큰을 지원했습니다. (출처: Simon Willison 블로그, simonwillison.net, 2025.04.05) 1만 개 단위로 자른 거지, 1천만이 아닙니다.
실측 데이터 요약
- 1.4M 토큰 → H100 8대 필요 (Meta 공식 노트북 기준)
- 32k 토큰 초과 시 추론 품질 저하 보고 다수 (Reddit/LocalLLaMA, 2025.04.06)
- 20,000토큰 문서 요약 시 “반복 루프” 오류 실측 사례 (Simon Willison, 2025.04.05)
10M은 모델이 기술적으로 처리 가능한 상한선이지, 실용적인 권장 범위가 아닙니다. 컨텍스트를 늘릴수록 GPU 메모리 요구량이 선형이 아니라 훨씬 가파르게 늘어납니다.
“무료 오픈소스”인데 왜 돈이 필요한가
💡 라이선스는 무료지만 하드웨어 비용은 무료가 아닙니다. Scout와 Maverick의 자체 호스팅 비용을 공개된 GPU 단가 기준으로 직접 따져봤습니다.
Llama 4는 Llama 커뮤니티 라이선스로 배포됩니다. 다운로드와 사용은 무료지만, 자체 서버에서 돌리려면 하드웨어가 필요합니다. tokencost.app이 정리한 자체 호스팅 비용 추산은 아래와 같습니다. (출처: tokencost.app, 2026.03.26 기준)
Scout는 INT4 양자화를 적용했을 때 H100 단일 GPU에서 가동됩니다. INT4 없이 풀 웨이트로 돌리면 메모리 요구량이 216GB + KV 캐시가 추가로 필요합니다. (출처: RunPod 기술 블로그, 2025.04.09) 쉽게 말해, 완전한 품질로 Scout를 쓰려면 H100 여러 대가 필요합니다.
API로 사용할 경우 Scout는 약 $0.3/Mtok, Maverick은 $0.19~$0.49/Mtok(분산추론 기준 $0.19, 단일 호스트 기준 $0.30~$0.49)입니다. (출처: llama.com 공식 페이지) Maverick이 더 저렴할 수 있는 역설적인 구조입니다.
ELO 1417이 진짜가 아니었던 사정
Meta는 공식 블로그에 “Llama 4 Maverick 실험적 채팅 버전이 LMArena에서 ELO 1417을 기록했다”고 썼습니다. (출처: Meta AI 공식 블로그, 2025.04.05) 2위 자리였습니다. 그런데 ‘실험적 채팅 버전’이라는 수식어가 문제였습니다.
LMArena 발표 (2025.04.08)
“Meta가 제출한 버전(Llama-4-Maverick-03-26-Experimental)은 일반에 공개된 버전과 달리 인간 선호도에 최적화된 커스텀 모델이었습니다. 이 버전은 이모지를 많이 쓰고 긴 답변을 생성하는 방식으로 투표에서 유리했습니다.” (출처: LMArena 공식 발표문 및 The Register, 2025.04.08)
LMArena가 이후 Hugging Face에서 실제 공개 버전(Llama-4-Maverick-17B-128E-Instruct)을 직접 테스트하자 순위가 2위에서 32위로 내려갔습니다. 2위에서 32위는 30단계 차이입니다. (출처: coolenjoy.net, LinkedIn 슬래시닷 인용)
이 사건 이후 LMArena는 “제출 모델이 반드시 공개 배포 버전과 동일해야 한다”는 정책을 명문화했습니다. Meta의 이름 있는 실수가 업계 전반의 평가 기준을 바꾼 셈입니다. (출처: dig.watch, 2025.04.09)
실제로 쓸 수 있는 상황은 따로 있습니다
💡 출시 당시 논란과 별개로, Llama 4 Scout가 실제로 쓸 만한 영역을 공식 벤치마크 수치와 교차해 보니 이런 그림이 나왔습니다.
Scout의 공식 강점은 세 영역입니다. 이미지 그라운딩, 긴 문맥 단순 검색, 그리고 멀티모달 입력입니다. Meta 공식 벤치마크에서 Scout는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1보다 높은 점수를 냈습니다. (출처: Meta AI 공식 블로그, 2025.04.05)
단, 이 수치는 벤치마크 기준입니다. 같은 기간 Reddit/LocalLLaMA 커뮤니티의 실사용 테스트에서는 400B 파라미터 모델인 Maverick이 코딩에서 32B 모델인 Qwen-QwQ-32B와 비슷한 수준이라는 평가가 나왔습니다. (출처: r/LocalLLaMA, 2025.04.06)
Scout가 진짜 강점을 보이는 케이스는 이렇습니다. 이미지와 텍스트를 동시에 넣어야 하는 멀티모달 파이프라인, 100K~256K 토큰 범위의 문서 검색(단순 키워드 인출), 그리고 단일 H100으로 비용을 제한해야 하는 스타트업 환경입니다. 복잡한 추론이나 긴 문맥 기반 창작·코딩은 현재 기준에서 기대와 결과의 간극이 큽니다.
Scout vs Maverick, 어떤 기준으로 고를까
Behemoth에서 지식을 증류해서 만든 두 모델은 목적 자체가 다릅니다. Scout는 단일 GPU에서 돌아가는 경량 멀티모달 어시스턴트, Maverick은 128개 전문가로 더 풍부한 추론을 처리하는 범용 모델입니다.
- 이미지 + 텍스트 동시 처리 파이프라인
- 200K 토큰 내외 문서 단순 검색
- GPU 비용을 H100 1대로 제한해야 할 때
- 200개 언어 다국어 앱 빌드
- 범용 챗봇·AI 어시스턴트
- 코딩·수학 추론이 중심인 서비스
- GPT-4o 대체 비용 절감 목적
- API 비용을 토큰당으로 최적화할 때
Maverick의 API 비용이 $0.19/Mtok(분산추론 기준)이라는 점은 주목할 만합니다. GPT-4o가 $5~$10/Mtok 수준임을 감안하면 비용 효율만큼은 압도적입니다. 다만 현재 공개 API를 통해 Maverick을 쓰는 경우 배포 서비스마다 성능 편차가 있다는 점은 반드시 직접 테스트로 확인해야 합니다.
자주 묻는 질문 Q&A
마치며
Llama 4 Scout는 “단일 GPU + 10M 컨텍스트 + 무료”라는 조합이 마케팅적으로는 맞지만, 실제 배포 환경에서는 각각에 조건이 붙습니다. 1GPU는 INT4 양자화와 제한된 컨텍스트 기준이고, 10M은 H100 여러 대를 전제로 하며, 무료는 라이선스 한정이고 인프라 비용은 별개입니다.
솔직히 말하면, 출시 직후 논란은 컸습니다. LMArena 순위 사건은 오픈소스 AI 벤치마크 생태계 전체에 경각심을 줬고, 결과적으로 평가 기준이 더 엄격해지는 계기가 됐습니다. 그 자체로 의미 있는 변화입니다.
Scout가 실제로 강한 건 이미지 그라운딩, 멀티모달 처리, 200K 내외 문서 검색입니다. 그 범위를 벗어난 기대치를 가지고 접근하면 실망이 옵니다. 어떤 모델이든 공식 벤치마크 숫자보다 자신의 실제 워크로드에서 직접 테스트하는 것이 가장 정직한 평가 방법입니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점 기준이며 Meta, LMArena, 각 서비스의 정책에 따라 달라질 수 있습니다. 투자·기술 도입 결정 전 공식 문서를 반드시 최신 버전으로 확인하시기 바랍니다.

댓글 남기기