Llama 4 Scout 17B-16E-Instruct
2026.03.31 작성
Llama 4 Scout 10M 토큰, 실제론 131K입니다
Meta가 Llama 4 Scout를 발표하면서 가장 크게 내세운 숫자가 바로 10,000,000 토큰입니다. “역대 오픈소스 모델 최대 컨텍스트”라는 문구가 쏟아졌죠. 막상 써보면 다릅니다. Groq을 비롯한 실제 서비스 제공사에서는 131K 토큰으로 제한되어 있고, 공식 커뮤니티에서도 이를 인정했습니다. 그 이유와, 그럼에도 Llama 4 Scout를 써야 하는 경우와 쓰지 말아야 할 경우를 공식 수치 기반으로 정리했습니다.
Llama 4 Scout가 뭔지 — 30초 요약
Meta가 2025년 4월 5일 공개한 Llama 4 Scout는 활성 파라미터 17B, 전문가 모듈(Expert) 16개로 구성된 MoE(Mixture of Experts) 아키텍처 모델입니다. 총 파라미터는 109B이지만, 추론 시 실제로 활성화되는 건 17B뿐이라 같은 크기의 Dense 모델보다 추론 비용이 낮습니다. (출처: Meta AI 공식 블로그, 2025.04.05)
Llama 3 시리즈와 결정적으로 다른 점이 두 가지입니다. 첫째, 처음부터 이미지와 텍스트를 함께 처리하는 네이티브 멀티모달 구조를 채택했습니다. 둘째, 컨텍스트 길이가 Llama 3의 128K에서 10M으로 껑충 뛰었다고 발표했습니다. 후자가 이 모델을 둘러싼 논란의 핵심입니다.
가격은 공식 API 기준 입력 토큰 $0.15/M, 출력 토큰 $0.60/M입니다. (출처: anotherwrapper.com LLM Pricing, 2026.03.11) GPT-4o mini보다 저렴하고, Groq을 통해 무료로도 쓸 수 있습니다.
💡 공식 발표문과 실제 서비스 사양을 나란히 놓고 보니, 숫자가 꽤 다릅니다. 공식 스펙 10M, 실제 Groq 서비스 131K — 같은 모델을 가리키는 서로 다른 숫자입니다.
10M 컨텍스트, 왜 실제로는 131K인가
숫자가 76배 줄어드는 이유
공식 스펙은 10M(1,000만 토큰)이지만, Groq 공식 커뮤니티에서는 “Llama Scout는 현재 131K 컨텍스트 윈도우로만 실행됩니다. 사실 어떤 서비스 제공사도 전체 10M 컨텍스트 윈도우로 실행하지 않습니다”라고 직접 밝혔습니다. (출처: Groq Community, 2025.06.19) 10M 대신 131K. 76분의 1 수준입니다.
기술적인 이유는 메모리 구조에 있습니다. Groq의 LPU는 연산 속도를 위해 모든 데이터를 SRAM에 올려놓는 방식을 씁니다. 빠르지만 용량이 극히 제한적입니다. 10M 컨텍스트를 완전히 담으려면 파라미터 저장 메모리 외에 몇 배 이상의 추가 메모리가 필요한데, 현재 어떤 클라우드 서비스도 이를 경제적으로 제공하지 못합니다. (출처: Reddit r/LocalLLaMA, 2025.04.06 스레드 내 엔지니어 설명)
💡 아키텍처를 보면 왜 이런 간극이 생기는지 보입니다. Llama 4 Scout는 32개 레이어 + 슬라이딩 윈도우 어텐션(크기 4096)을 사용하는데, 슬라이딩 윈도우의 이론적 최대 어텐션 범위가 32 × 4096 = 약 131,072 토큰입니다. 10M은 이 구조를 넘어서는 특수 추론 기법을 써야 가능한 수치인데, 상용 인프라에서 이를 실시간으로 처리하는 건 현재 사실상 불가능합니다.
로컬에서도 쓸 수 없습니다
“오픈웨이트니까 내 컴퓨터에서 돌리면 되지 않나?” 하는 생각이 드실 수 있습니다. 현실은 다릅니다. 4비트 양자화 버전조차 최소 80GB VRAM이 필요합니다. (출처: KDnuggets, 2025.04.05) NVIDIA H100 한 장이 약 $20,000~$30,000 수준인 장비입니다. 일반 게이밍 GPU(RTX 4090, 24GB VRAM)로는 애초에 실행이 되지 않습니다.
Llama 시리즈가 오픈소스 LLM 생태계의 상징이 될 수 있었던 건 7B, 13B 같은 소형 모델을 중심으로 누구나 로컬에서 실험할 수 있었기 때문입니다. Llama 4 Scout의 최소 모델이 109B(활성 17B)라는 사실은, 이 라인업에서 “로컬 실행”이라는 개념 자체가 이미 사라졌다는 뜻입니다.
LMArena 2위 스캔들 — 공개된 모델이 아니었습니다
Llama 4 공개 직후 LMArena(챗봇 아레나) 리더보드에서 2위를 차지했다는 소식이 퍼졌습니다. 인상적인 숫자였지만, 이후 공개된 사실은 달랐습니다. LMArena 공식 트위터(@lmarena_ai)는 “아레나에서 평가된 Llama 4 버전은 (a) 공개 배포된 Scout나 Maverick이 아니며, (b) 인간 선호도 점수를 높이도록 별도 튜닝된 버전”이라고 밝혔습니다. (출처: @lmarena_ai 공식 트위터, 2025.04.08)
Meta 측은 이를 “인간 선호도 최적화”라고 설명했습니다. 벤치마크 조작이라고 보기는 어렵지만, 실제로 다운로드해서 쓸 수 있는 모델과 점수를 낸 모델이 다르다는 점은 사용 결정 전에 알아야 할 사항입니다. 직접 사용해볼 Scout/Maverick과 아레나 2위 모델은 다른 물건입니다.
💡 LMArena ELO 1417이라는 수치와 직접 사용 가능한 모델의 수치는 별개입니다. 아레나 점수를 보고 쓸 모델을 결정했다면, 실제 쓸 모델의 성능은 따로 확인해야 합니다.
벤치마크 수치 직접 비교 — 어디서는 1등, 어디서는 꼴찌
Llama 4 Scout를 평가한 벤치마크 결과는 어떤 지표를 보느냐에 따라 극명하게 갈립니다. Meta 공식 블로그에서 제시한 벤치마크에서는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 상회한다고 밝혔습니다. (출처: Meta AI 공식 블로그, 2025.04.05)
| 벤치마크 | Llama 4 Scout | 비고 |
|---|---|---|
| GPQA Diamond | 57.2% | Gemma 3 대비 우세 |
| MMLU | 79.6% | 일반 지식 종합 |
| MATH | 61.2% | 수학 추론 |
| MMMU (멀티모달) | 69.4% | 이미지+텍스트 이해 |
| Fiction.liveBench (긴 맥락 이해) | 하위권 | 긴 텍스트 실질 이해력 평가에서 최하위 |
| Aider 코딩 벤치마크 (Maverick 기준) | 15.6% | Qwen2.5-Coder-32B(16.4%)보다 낮음 |
수치를 교차해서 보면 패턴이 보입니다. 표준 벤치마크(MMLU, GPQA 등)에서는 클래스 최상위권을 기록하지만, 실제 사용 패턴에 가까운 긴 맥락 이해나 실전 코딩 작업에서는 기대에 못 미칩니다. 같은 모델, 다른 지표, 정반대의 결론이 나옵니다. (출처: dev.to/maximsaplin Llama 4 리뷰, 2025.04.08 / anotherwrapper.com, 2026.03.11)
특히 코딩 에이전트 목적으로 쓰려 한다면 수치를 꼭 짚어야 합니다. LiveBench 코딩 점수에서는 Claude 3.5 Sonnet을 앞서지만, 실제 코드 변경을 다루는 Aider 벤치마크에서는 32B 파라미터짜리 Qwen 모델보다 낮습니다. 벤치마크와 실무 작업의 간극이 이 모델에서 특히 크게 나타납니다.
무료로 쓰는 3가지 방법 — 플랫폼별 실제 차이
Llama 4 Scout는 로컬 실행이 사실상 불가능하지만, 클라우드 서비스를 통해 무료로 접근하는 방법이 세 가지 있습니다. 플랫폼마다 실제 사용 조건이 다르니 직접 확인해 봤습니다.
세 경로 모두 무료지만, API 연동 실험 목적이라면 Groq가 가장 빠르고 안정적입니다. 단순 채팅 체험이라면 meta.ai가 제일 간편합니다. 긴 문서를 다루는 작업에는 131K 제한이 걸리는 Groq보다 OpenRouter 경로가 나을 수 있습니다.
이 모델이 맞는 경우와 아닌 경우
스펙과 벤치마크를 교차 분석하면 Llama 4 Scout가 실제로 잘 맞는 상황과 아닌 상황이 꽤 명확하게 나뉩니다.
✅ 이런 경우엔 적합합니다
- 이미지와 텍스트를 함께 처리하는 작업
- 저비용 API 연동이 필요한 프로덕션 개발 ($0.15/M 입력)
- 빠른 추론 속도가 중요한 실시간 서비스 (Groq)
- MMLU·GPQA 기준 일반 지식 추론·요약
- 오픈소스 기반으로 자체 파인튜닝이 필요한 경우
- 200개 언어 지원 — 한국어 포함 다국어 처리
❌ 이런 경우엔 다른 선택지가 낫습니다
- 10M 컨텍스트가 실제로 필요한 작업 (현재 미지원)
- 로컬 GPU 환경에서 실행 (80GB+ VRAM 필요)
- 코딩 에이전트 목적 (Aider 기준 15.6%로 하위권)
- 긴 소설·보고서의 내용 파악 작업 (Fiction.liveBench 최하위)
- 아레나 ELO 점수만 보고 선택 (공개 모델과 평가 모델 다름)
💡 가격 구조를 다른 모델과 직접 계산해보면 차이가 명확합니다. 입력 $0.15/M, 출력 $0.60/M은 GPT-4o mini($0.15/$0.60)와 동일한 수준입니다. 동급 가격에 멀티모달과 오픈소스 라이선스가 붙어 있다는 게 Scout의 실질적인 강점입니다.
자주 묻는 질문
마치며 — 총평
Llama 4 Scout는 동급 클래스 최저 가격, 멀티모달 지원, 오픈소스 라이선스라는 조합으로 분명히 매력적인 모델입니다. 저비용 API 연동, 이미지+텍스트 처리, 다국어 서비스 구축에는 실용적인 선택지입니다.
하지만 “10M 컨텍스트” 문구 하나 때문에 도입을 결정하려 했다면, 현재 실제 환경에서는 그 기능을 쓸 수 없습니다. 아레나 2위 점수도 공개된 모델과 다른 버전에서 나온 수치입니다. 솔직히 말하면, 이 두 가지 사실이 공개 이후 제대로 정리된 한국어 글을 찾기 어려웠습니다.
좋은 모델인 건 맞습니다. 다만 어떤 조건에서 좋은지를 알고 써야 쓸모가 있습니다. 공식 수치와 실제 수치의 간극을 모른 채 도입 결정을 내리는 것보다, 131K 제한을 알고 쓰는 편이 훨씬 나은 결과로 이어질 것입니다.
📚 본 포스팅 참고 자료
- Meta AI 공식 블로그 — Llama 4 발표문 (ai.meta.com/blog/llama-4-multimodal-intelligence/)
- Meta Llama 공식 모델 페이지 (llama.com/models/llama-4/)
- Groq 공식 커뮤니티 — 131K 컨텍스트 제한 공식 답변 (community.groq.com)
- KDnuggets — 3 Ways to Access Llama 4 for Free (kdnuggets.com)
- AnotherWrapper LLM Pricing — Llama 4 Scout 스펙·벤치마크 (anotherwrapper.com)
- dev.to — Llama 4 리뷰: 10M Context? Coding? (dev.to/maximsaplin)
본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. Meta, Groq 등 각 서비스의 정책·UI·기능·가격은 업데이트로 인해 달라질 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 투자·도입 결정 전 공식 채널에서 최신 정보를 직접 확인하세요.

댓글 남기기