Llama 4 Scout 10M 컨텍스트, 실제로 따져봤습니다

Published on

in

Llama 4 Scout 10M 컨텍스트, 실제로 따져봤습니다

📅 2026.03.21 기준
Llama 4 Scout 17B-16E 기준
Meta AI 공식 발표 2025.04.05

Llama 4 Scout 10M 컨텍스트, 실제로 따져봤습니다

Meta가 공식 발표에서 내세운 “업계 최고 수준의 10M 토큰 컨텍스트 윈도우”라는 문구는 인상적입니다. 그런데 실제로 API를 통해 Llama 4 Scout를 쓰려고 하면 숫자가 달라집니다. AWS Amazon Bedrock은 350만 토큰을, Groq는 128K 수준으로 제공하고 있습니다. 공식 스펙과 실제 사용 가능한 수치 사이에 최대 30배 이상의 격차가 생기는 이유, 그리고 그 격차가 실전에서 어떤 의미인지 직접 정리했습니다.

10M
공식 컨텍스트
350K~3.5M
실제 API 제공
109B
총 파라미터
17B
활성 파라미터

Llama 4 Scout, 스펙만 보면 현재 최강입니다

Meta가 2025년 4월 5일 공식 발표한 Llama 4 Scout는 17B 활성 파라미터, 총 109B 파라미터, 16명의 전문가(expert)로 구성된 MoE(Mixture-of-Experts) 아키텍처 모델입니다. (출처: Meta AI 공식 블로그, 2025.04.05) 같은 클래스 오픈소스 모델 중 현재까지 가장 긴 컨텍스트 윈도우를 공식 스펙으로 갖고 있습니다.

Llama 4 Scout의 공식 스펙을 한눈에 보면 아래와 같습니다.

표 1. Llama 4 Scout 주요 스펙 (출처: Meta AI 공식 블로그, 2025.04.05)
항목 수치 비고
총 파라미터 109B 16 experts
활성 파라미터 17B 토큰당 실제 활성
공식 컨텍스트 윈도우 10M 토큰 iRoPE 아키텍처 적용
학습 컨텍스트 길이 256K 사전·사후 학습 모두
지식 컷오프 2024년 8월 텍스트·이미지 모두
멀티모달 텍스트+이미지 입력 출력은 텍스트만

여기서 눈에 띄는 숫자는 “학습 컨텍스트 256K vs 공식 스펙 10M”의 조합입니다. 학습은 256K로 했는데 추론 시 10M을 지원한다고 발표한 것입니다. 이 구조가 나중에 핵심적인 논란이 됩니다.

Meta는 iRoPE라는 새로운 어텐션 아키텍처를 통해 이 간격을 메웠다고 설명합니다. “i”는 인터리브드(interleaved) 어텐션 레이어를, “RoPE”는 Rotary Position Embedding을 의미하며, 긴 컨텍스트에서 발생하는 위치 정보 손실 문제를 추론 시 온도 스케일링으로 보완하는 방식입니다. (출처: Meta AI 공식 블로그, 2025.04.05)

▲ 목차로 돌아가기

10M 토큰이라는 숫자, 실제로는 이렇게 작동합니다

공식 발표 이후 가장 큰 화제가 된 부분은 바로 컨텍스트 윈도우였습니다. 10M 토큰은 단행본 소설 약 70~80권 분량, 또는 대형 코드베이스 전체를 통째로 밀어 넣는 수준입니다. 숫자만 보면 경쟁 모델과 비교가 안 됩니다.

💡 공식 발표문과 실제 API 수치를 같이 놓고 보니 이런 차이가 보였습니다

AWS Amazon Bedrock 공식 문서는 Llama 4 Scout에 대해 “현재 350만 토큰 컨텍스트 윈도우를 지원하며, 가까운 시일 내에 확장할 계획“이라고 적혀 있습니다. (출처: AWS 한국 공식 블로그, 2025.05.02) 즉 공식 스펙(10M)과 실제 제공 값(3.5M) 사이에 약 2.9배 격차가 이미 존재합니다. 초기 출시 당시 Groq 등 다른 API 제공사들은 128K~328K로 캡을 걸었습니다. 328K를 기준으로 하면 공식 스펙 대비 약 30배 이상 낮은 수치입니다.

학습은 256K, 추론은 10M — 이 구조에서 발생하는 문제

Llama 4 Scout는 사전학습(pre-training)과 사후학습(post-training) 모두 256K 컨텍스트 길이로 진행됐습니다. 10M은 아키텍처상 추론 시점에 적용되는 길이 일반화 기술로 확장한 수치입니다. (출처: Meta AI 공식 블로그, 2025.04.05) 이 구조가 현장에서 어떤 결과를 낳는지는 수치로 이미 나와 있습니다.

표 2. API 제공사별 Llama 4 Scout 컨텍스트 실제 제공 현황 (2025.04~05 기준)
제공사 실제 제공 컨텍스트 공식 스펙 대비
Meta 공식 스펙 10M 토큰 기준값
Amazon Bedrock 3.5M 토큰 약 35%
초기 Groq 등 기타 128K~328K 토큰 1.3~3.3%

실제 사용 흐름을 보면, 긴 문서 합성이나 법률 계약서 전체 분석처럼 200K 토큰을 넘기는 작업에서 성능 저하가 보고됩니다. NIHAS 1M 토큰 벤치마크에서 단순 사실 검색 정확도는 92%였지만, 문서 전체를 종합적으로 분석하는 task에서는 200K 이상 구간부터 품질 하락이 관찰됐습니다. (출처: arbisoft.com 분석 보고서, 2026.01.06) 단순 조각 찾기와 전체 합성 추론은 다른 이야기입니다.

▲ 목차로 돌아가기

“단일 GPU로 실행 가능”이라는 말의 조건

Meta 공식 발표에는 “Llama 4 Scout는 단일 NVIDIA H100 GPU에서 실행 가능”이라는 문구가 나옵니다. (출처: Meta AI 공식 블로그, 2025.04.05) 이 문장은 사실입니다. 다만 조건이 있습니다.

💡 “단일 GPU 가능”이라는 표현 뒤에 붙은 조건들

Int4 양자화(quantization)를 전제로 합니다. 4비트 양자화 기준 가중치만 55~60GB VRAM이 필요하고, 여기에 KV 캐시 오버헤드가 더해집니다. H100 한 장(80GB VRAM)으로는 짧은 컨텍스트에서만 동작합니다. 328K 토큰 처리에는 64GB VRAM이 필요합니다. (출처: Gradient Flow 분석, 2025.04.07) 소비자용 RTX 4090 두 장(총 48GB)으로는 128K 토큰 구간에서 CUDA OOM 오류가 발생합니다.

MoE 구조가 갖는 메모리 역설

MoE 아키텍처의 장점은 토큰당 활성 파라미터를 줄여 연산 비용을 낮추는 것입니다. Llama 4 Scout는 109B 전체 파라미터 중 토큰당 17B만 활성화합니다. 이론상 연산 효율이 높습니다.

그런데 추론 시에는 전체 109B 파라미터를 메모리에 올려야 합니다. 활성화 비율이 낮아도 메모리 점유는 전체 크기 기준입니다. MoE 모델은 “연산은 가볍고, 메모리는 무겁다”는 특성을 갖습니다. Scout는 초당 약 148 토큰을 처리해 Llama 3 동급 대비 약 66% 빠르지만(출처: arbisoft.com, 2026.01.06), 이 속도를 내려면 전체 109B를 메모리에 상주시켜야 합니다. 속도와 메모리를 동시에 얻기는 어렵습니다.

▲ 목차로 돌아가기

로컬 실행을 생각하고 있다면 이 수치를 먼저 보세요

Llama 4 Scout를 로컬에서 직접 돌리려는 분들에게 가장 현실적인 수치를 먼저 말씀드립니다.

표 3. Llama 4 Scout 로컬 실행 VRAM 요구사항 (출처: Gradient Flow, 2025.04.07)
양자화 수준 필요 VRAM (가중치) 실행 가능 하드웨어
FP16 (반정밀도) 218B+ (실행 불가) 단일 GPU 불가
8비트 양자화 약 128GB Mac Studio M2 Ultra (192GB)
4비트 양자화 55~60GB 단일 H100(80GB) 가능
3비트 양자화 약 64GB Mac Studio M3 Ultra(192GB)

4비트 양자화를 적용하면 로직 퍼즐 기반 평가에서 정확도가 약 12% 낮아집니다. (출처: EleutherAI lm-eval 평가, arbisoft.com 재인용 2026.01.06) 파라미터를 압축해 하드웨어 부담을 줄이는 대신 정확도 일부를 포기하는 트레이드오프입니다.

AWS g5.48xlarge 인스턴스 기준 Scout 운영 비용은 시간당 약 $38로, 동급 하드웨어에서 Gemma 3를 돌릴 때보다 약 2배 높습니다. (출처: arbisoft.com, 2026.01.06) 단순히 모델이 “오픈 소스”라고 해서 비용이 낮지는 않습니다.

RTX 4090 두 장으로도 안 되는 이유

현재 소비자용 최고 사양 GPU인 RTX 4090은 VRAM 24GB입니다. 두 장을 붙여도 48GB. 4비트 양자화 시 가중치만 55~60GB가 필요한 Scout를 올리기엔 부족합니다. 128K 토큰 컨텍스트 처리 시도에서 CUDA out-of-memory 오류가 보고됩니다. (출처: arbisoft.com, 2026.01.06) 소비자용 장비로 Scout를 돌리는 현실적인 경로는 아직 없습니다.

▲ 목차로 돌아가기

공식 발표와 현장 사이에서 드러난 것들

Llama 4의 공개는 기술적으로 인상적이었지만 커뮤니티 반응은 복잡했습니다. 주요 쟁점을 세 가지로 정리해 봤습니다.

① 벤치마크 논란 — Maverick ELO 1417의 진짜 의미

Meta 발표에서 Maverick의 LMArena ELO 1417이 크게 부각됐습니다. 그런데 해당 점수는 공개 배포 버전이 아닌 “실험용 채팅 버전”을 기준으로 한 수치입니다. (출처: Gradient Flow, 2025.04.07) 실제 다운로드 가능한 버전과 벤치마크 버전이 달랐던 셈입니다. Maverick의 코딩 평가(HumanEval)에서 62% 정확도로 Gemma 3 27B(74%)보다 낮은 결과도 나왔습니다. (출처: arbisoft.com, 2026.01.06)

② 라이선스 — “오픈소스”가 아닌 “오픈 웨이트”

Llama 4는 MIT 같은 완전 오픈소스 라이선스가 아닙니다. Meta의 커스텀 라이선스를 사용하며, 월간 활성 사용자(MAU) 7억 명을 초과하는 기업은 Meta의 별도 허가를 받아야 합니다. (출처: Meta Llama 4 Community License, GitHub) 이 조건은 대형 플랫폼 기업에게 직접 적용됩니다.

💡 라이선스 조건을 국내 서비스 규모 기준으로 바꿔 보면

MAU 7억 명은 글로벌 대형 플랫폼 기준입니다. 국내 스타트업이나 중소 서비스에는 사실상 해당 없는 조건이지만, 대형 포털·커머스 플랫폼은 사전 확인이 필요합니다. 또한 EU 지역에서는 비전(이미지) 기능 사용 자체가 라이선스상 제한됩니다. (출처: arbisoft.com, 2026.01.06) EU 타겟 서비스라면 이미지 처리 기능을 계획에서 빼야 합니다.

③ 출시 타이밍과 배경

Llama 4는 주말에 출시됐습니다. AI 커뮤니티에서는 이를 DeepSeek V3·R1이 Llama 3에 근접한 성능을 저비용으로 달성한 직후 Meta가 빠르게 대응한 결과로 해석하고 있습니다. Hugging Face에서 48시간 내 다운로드 수가 18,000건을 넘었지만, 이는 Llama 3 출시 속도보다 50% 느린 수치입니다. (출처: arbisoft.com, 2026.01.06) 첫날 관심도 자체는 전작 대비 낮았습니다.

▲ 목차로 돌아가기

Scout를 쓸 때 실제로 유리한 조건

비판적인 내용이 많았지만, Scout가 실제로 강한 영역도 분명히 있습니다. 어떤 조건에서 쓰면 유리한지 정리했습니다.

1
API 비용이 중요한 팀

Scout API 가격은 입력 약 $0.11, 출력 $0.34 per million tokens (Groq 기준). GPT-4o 대비 비용이 40배 이상 낮습니다. (출처: Gradient Flow, 2025.04.07) 고트래픽 서비스에서 비용 절감 효과가 확실합니다.

2
다국어 처리

Llama 4는 200개 언어로 사전학습됐으며, 그중 100개 이상은 10억 토큰 이상으로 학습했습니다. Llama 3 대비 다국어 학습 토큰이 10배입니다. (출처: Meta AI 공식 블로그, 2025.04.05) 한국어 포함 다국어 처리 품질이 개선됐습니다.

3
128K~330K 이하 긴 문서 처리

API 제공사 대부분이 지원하는 128K~350K 범위 안에서는 장문 문서 요약, 코드베이스 파악, 멀티 이미지 분석 등에서 강점을 보입니다. 이 구간 내에서는 실용적인 선택지입니다.

솔직히 말하면, Scout는 “뭐든 다 잘하는 모델”보다는 “비용 효율을 최우선으로 하면서 긴 컨텍스트가 간간이 필요한 서비스”에 가장 잘 맞습니다. 추론·코딩 중심이라면 같은 기간 기준 DeepSeek R1이나 Gemma 3 27B가 더 나은 평가를 받고 있습니다.

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q1. Llama 4 Scout의 10M 컨텍스트를 실제로 전부 쓸 수 있나요?

현재 API 제공사 기준으로는 불가능합니다. Amazon Bedrock은 3.5M, 초기 Groq 등은 128K~328K로 제공합니다. 10M을 이론상 쓰려면 8x H100 GPU(bf16 정밀도 기준 최소 1.4M 토큰 처리)가 필요하며, 이는 대부분의 팀에서 비용상 현실적이지 않습니다. (출처: Gradient Flow, 2025.04.07)

Q2. Llama 4 Scout는 정말 오픈소스인가요?

오픈소스가 아닌 “오픈 웨이트” 모델입니다. 모델 가중치 다운로드와 수정은 가능하지만, MIT 같은 완전 자유 라이선스가 아닙니다. MAU 7억 명 초과 기업은 Meta 별도 허가가 필요하고, EU에서는 비전 기능 사용이 제한됩니다. (출처: Meta Llama 4 Community License)

Q3. Scout와 Maverick 중 어떤 걸 써야 하나요?

API 비용과 긴 문서 처리가 중심이면 Scout, 멀티모달 이미지 이해와 복잡한 추론이 중심이면 Maverick이 낫습니다. 다만 Maverick은 400B 전체 파라미터를 요구해 로컬 실행이 사실상 불가능합니다. 대부분의 팀에게는 API 형태로 쓰는 Scout가 더 현실적인 선택입니다.

Q4. 한국어 처리 품질은 어느 수준인가요?

Llama 4는 200개 언어 학습 데이터를 포함하며, 공식 지원 12개 언어에 한국어는 포함되어 있지 않습니다. Amazon Bedrock 공식 문서 기준 텍스트 지원 언어 12개 목록에서 한국어는 빠져 있습니다. (출처: AWS 한국 공식 블로그, 2025.05.02) 비공식 언어로의 성능은 개인 테스트가 필요합니다.

Q5. Llama 4 Behemoth는 언제 나오나요?

Meta 공식 발표 기준 2025년 4월 당시 여전히 학습 중이었습니다. Meta는 “Llama 4 Reasoning” 모델을 2026년 중 출시할 것으로 예고하고 있습니다. (출처: arbisoft.com, 2026.01.06) 현재 시점까지 공개 일정이 공식 발표되지 않았습니다.

▲ 목차로 돌아가기

마치며 — 숫자는 인상적이고, 조건은 까다롭습니다

Llama 4 Scout의 10M 토큰 컨텍스트는 기술적으로 분명히 의미 있는 진전입니다. iRoPE 아키텍처를 통해 256K 학습 기반에서 추론 시 10M까지 확장한 방식 자체는 새로운 접근입니다.

다만 이 수치를 그대로 실전에 적용할 수 있는 팀은 많지 않습니다. API 제공사는 현재 3.5M이 최대이고, 로컬 실행에는 H100급 하드웨어가 필요합니다. 라이선스도 완전 자유롭지 않습니다.

API 비용을 낮추면서 128K~350K 수준의 긴 문서를 처리하는 용도라면 Scout는 지금 당장 쓸 수 있는 실용적인 선택지입니다. 그 범위를 벗어나는 기대를 갖고 들어가면 공식 스펙과 현실 사이의 격차가 생각보다 크게 느껴집니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Meta AI 공식 블로그 — The Llama 4 herd: The beginning of a new era of natively multimodal intelligence (2025.04.05) · https://ai.meta.com/blog/llama-4-multimodal-intelligence/
  2. AWS 한국 공식 블로그 — Amazon Bedrock, 최신 Meta Llama 4 모델 정식 출시 (2025.05.02) · https://aws.amazon.com/ko/blogs/korea/llama-4-models-from-meta-now-available-in-amazon-bedrock-serverless/
  3. Gradient Flow — Llama 4: What You Need to Know (2025.04.07) · https://gradientflow.com/llama-4-what-you-need-to-know/
  4. Arbisoft 블로그 — Llama 4: A Bold Leap Forward or a Misstep? (2026.01.06) · https://arbisoft.com/blogs/llama-4-a-bold-leap-forward-or-a-misstep
  5. Meta Llama 4 공식 모델 페이지 · https://www.llama.com/models/llama-4/

※ 본 포스팅은 2026년 3월 21일 작성 시점의 공식 자료와 공개된 분석 자료를 기반으로 합니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 제공사의 컨텍스트 제한 수치는 서비스 업데이트에 따라 달라질 수 있으니 공식 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기