v26.03 / Apache 2.0
119B MoE · 6.5B active
Mistral Small 4 직접 써봤습니다 — 119B가 “Small”인 이유
솔직히 말하면, 처음 모델 이름을 봤을 때 당황했습니다. 119B 파라미터짜리가 “Small”이라니. 근데 Mistral이 이 이름을 쓴 데는 이유가 있고, 그 이유가 바로 이 모델을 제대로 이해하는 열쇠입니다.
“Small”이라 부르는 진짜 이유
Mistral Small 4는 2026년 3월 16일 출시된 모델입니다. 총 파라미터 수는 119B, MoE(Mixture-of-Experts) 구조로 설계됐습니다. 근데 실제로 추론할 때 활성화되는 파라미터는 6.5B에 불과합니다. 128개 전문가 네트워크(expert) 중 토큰 하나를 처리할 때 4개만 활성화되는 방식입니다.
💡 공식 발표문과 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — “Small”은 총 파라미터 기준이 아니라 실행 시 활성화되는 계산량 기준입니다. 119B 전체를 매번 돌리는 게 아니라 그중 6.5B만 켜서 추론합니다.
과거 Mistral Large도 120B짜리 모델이 있었습니다. 그게 Dense 모델이었다면, 이번 Small 4는 MoE라서 “Large”와 총 파라미터 수는 비슷하지만 토큰당 연산량은 훨씬 적습니다. 그러니까 “Small”이라는 이름은 마케팅 과장이 아니라 기술적 기준에서 나온 명명입니다. (출처: Mistral AI 공식 발표, 2026.03.16)
그래서 이 모델의 “크기” 논쟁은 사실 다른 기준끼리 충돌하는 것입니다. 총 파라미터로 보면 대형, 활성 파라미터로 보면 소형 — 둘 다 맞는 말입니다.
3개 모델을 1개로 — 통합 아키텍처 뜯어보기
Mistral Small 4가 나오기 전, Mistral은 용도별로 서로 다른 모델을 유지했습니다. 추론이 필요하면 Magistral, 이미지·문서 처리는 Pixtral, 코딩 에이전트 작업은 Devstral을 써야 했습니다. 세 개 엔드포인트를 유지하는 운영 부담이 있었고, 요청마다 어떤 모델로 라우팅할지 판단 로직도 짜야 했습니다.
Small 4는 이 세 가지를 하나로 합쳤습니다. 공식 발표에서 Mistral은 “사용자가 더 이상 빠른 인스트럭트 모델, 강력한 추론 엔진, 멀티모달 어시스턴트 사이에서 선택할 필요가 없다”고 표현했습니다. (출처: mistral.ai/news/mistral-small-4)
| 항목 | Mistral Small 4 | Small 3.2 (이전) |
|---|---|---|
| 총 파라미터 | 119B (MoE) | 24B (Dense) |
| 활성 파라미터 | 약 6.5B/토큰 | 24B (전체) |
| 컨텍스트 윈도우 | 256K | 128K |
| 이미지 입력 | ✅ 네이티브 | ❌ 없음 |
| 추론 모드 | ✅ 파라미터로 제어 | ❌ 없음 |
| 처리량 향상 | 3× (Small 3 대비) | 기준 |
| API 입력 요금 | $0.15/M 토큰 | $0.1/M 토큰 |
(출처: docs.mistral.ai, 2026.03.16 기준)
처리량이 3배 늘었다는 건 동일한 인프라에서 동시 요청을 3배 더 소화한다는 뜻입니다. API 비용이 약간 올랐지만 처리량 기준 단가는 오히려 내려갔습니다.
reasoning_effort가 배포 구조를 바꾸는 방식
Mistral Small 4의 가장 주목할 점은 reasoning_effort라는 API 파라미터입니다. 이게 왜 중요하냐면, 기존에는 빠른 응답이 필요할 때와 깊은 추론이 필요할 때 다른 모델 엔드포인트로 라우팅해야 했기 때문입니다.
💡 단일 모델로 요청마다 추론 깊이를 조절한다는 게 실제로 어떤 의미인지 들여다봤습니다
기존 구조: “이 요청은 빠른 모델로, 저 요청은 추론 모델로” — 라우팅 로직 + 2개 엔드포인트 관리 필요
Small 4 구조: 하나의 엔드포인트에 reasoning_effort="none" 또는 reasoning_effort="high"만 붙이면 됨
reasoning_effort="none"으로 설정하면 Mistral Small 3.2 수준의 속도로 답변이 나옵니다. reasoning_effort="high"로 올리면 Magistral 수준의 단계적 추론 출력이 나옵니다. (출처: Mistral 공식 문서, 2026.03.16)
온도(temperature) 권장값도 모드별로 다릅니다. 추론 모드(high): temperature 0.7 / 일반 모드(none): temperature 0.0~0.3. 공식 문서에 이렇게 나와 있습니다.
한 가지 알아두면 좋은 점 — 출시 시점에 reasoning_effort 파라미터가 API 레퍼런스 문서에 아직 안 올라와 있었습니다. 실제 기능은 작동했는데 문서화가 뒤따라왔습니다. Mistral 특유의 “먼저 출시, 문서화는 나중” 패턴입니다. Mistral이 공식 답변을 별도로 내놓지 않은 부분이라 참고해두면 좋습니다.
119B인데 실제 비용은 더 싸다는 계산이 성립하는 이유
API 요금만 보면 Mistral Small 4는 입력 $0.15/M, 출력 $0.60/M 토큰입니다. 경쟁 모델인 Qwen의 유사 사이즈 MoE와 비교하면 비슷하거나 약간 비쌉니다. 그런데 진짜 비용은 출력 토큰 수에서 갈립니다.
📊 공식 수치로 직접 계산해봤습니다
Mistral 공식 발표에 따르면 AA LCR 벤치마크에서 Small 4는 점수 0.72를 1,600자로 달성합니다. 비교 대상인 Qwen 모델들은 동등한 성능에 5,800~6,100자가 필요했습니다. (출처: mistral.ai/news/mistral-small-4)
이걸 요금으로 환산하면: 출력 토큰이 3.5~4배 더 나온다면 Qwen의 출력 비용도 3.5~4배 더 붙습니다. 예를 들어 Qwen이 $0.50/M 출력이더라도, 4배 출력이 나오면 실제 지출은 $2.00/M 수준과 같아집니다. Small 4의 $0.60/M와 비교하면 Small 4가 70% 이상 저렴한 셈입니다. 출력 토큰이 돈이라는 것, 직접 계산해보면 체감이 다릅니다.
LiveCodeBench 코딩 평가에서도 Small 4는 GPT-OSS 120B를 앞서면서 출력량이 20% 적었습니다. (출처: Mistral 공식 벤치마크, 2026.03.16) 이 수치들은 Mistral 자체 발표임을 감안해야 하지만, 방향성 자체는 여러 써드파티 리뷰에서도 비슷하게 나왔습니다.
GPQA Diamond(대학원 수준 과학 문제)에서는 71.2%, MMLU-Pro에서는 78.0%를 기록했습니다. 추론 모드 활성화 시 기준입니다. (출처: mistral.ai/news/mistral-small-4)
써보니 이게 약점이었습니다
기대했던 것과 달랐던 부분을 솔직하게 짚겠습니다. 첫 번째는 공간적 추론입니다. SVG 생성이나 다이어그램 레이아웃처럼 공간 관계를 구조화된 출력으로 표현해야 하는 작업에서 품질이 들쭉날쭉했습니다. Simon Willison의 테스트에서 자전거 위 펠리컨 SVG 생성 시 자전거가 뒤집혀 렌더링된 사례가 문서화됐고, 비슷한 패턴이 여러 평가에서 반복됐습니다.
⚠️ 쓰면 안 되는 상황
이미지 기반 공간 다이어그램 자동 생성, SVG 레이아웃 생성, 음성·동영상 입력이 필요한 멀티모달 작업 — 이 세 경우는 Small 4로 해결이 안 됩니다. 음성과 영상 입력 자체가 지원 사양 밖입니다. (출처: docs.mistral.ai)
두 번째는 벤치마크 투명성입니다. Mistral이 공개한 벤치마크 항목이 제한적입니다. 표준 MMLU, HumanEval, MATH 전체 수치를 공개하지 않아서 경쟁 모델과 직접 비교가 어렵습니다. 커뮤니티에서 “Qwen3.5 35B-A3B에도 뒤처진다”는 평가가 나오는 배경입니다. GPQA Diamond 71.2% vs Qwen3.5-35B-A3B 84.2%, MMLU-Pro 78.0% vs 85.3% — 이 수치가 Reddit LocalLLaMA에서 직접 비교·공유됐습니다. (출처: Reddit r/LocalLLaMA 커뮤니티 실측)
세 번째는 인스트럭트 모드 성능입니다. 추론 모드를 끄면(reasoning_effort=”none”) Mistral Small 3.2와 체감 차이가 거의 없다는 후기가 다수입니다. 이 모델의 가치를 끌어내려면 추론 모드를 켜는 상황을 설계해야 합니다.
자가 호스팅 현실 — 4× H100이 “최소”입니다
Apache 2.0 라이선스라서 상업적 사용, 파인튜닝, 재배포 모두 가능합니다. 근데 막상 셀프 호스팅을 검토하면 하드웨어 장벽이 상당합니다. Mistral이 공식 문서에서 명시한 최소 구성은 아래와 같습니다. (출처: Mistral 공식 발표, 2026.03.16)
| 구성 | 최소 사양 | 권장 사양 |
|---|---|---|
| NVIDIA HGX H100 | 4× | 4× |
| NVIDIA HGX H200 | 2× | 4× |
| NVIDIA DGX B200 | 1× | 2× |
DGX B200 1대가 약 30만 달러(추정) 수준임을 감안하면, “Apache 2.0이라서 공짜로 쓸 수 있다”는 말이 인프라 비용을 포함하지 않은 이야기임을 알 수 있습니다. 개인 연구자나 소규모 팀이 자가 호스팅 이점을 실제로 누리기 어렵습니다.
BF16 전체 가중치는 242GB입니다. Hugging Face에서 내려받을 수 있고(모델 ID: mistralai/Mistral-Small-4-119B-2603), NVFP4 양자화 버전은 용량을 대폭 줄여줍니다. 서빙 스택은 vLLM이 권장 경로이고, llama.cpp·SGLang·Transformers도 지원되지만 일부는 아직 업스트림 반영 중입니다. (출처: Hugging Face 모델 카드, 2026.03.16)
Speculative decoding용 Eagle 모델(약 300MB)도 별도 제공됩니다. 이걸 같이 붙이면 119B 사이즈 치고 토큰 생성 속도가 꽤 빠릅니다. API로 쓰는 경우는 해당 없지만, 자가 호스팅 팀이라면 챙겨볼 포인트입니다.
Q&A — 자주 나오는 질문 5가지
마치며 — 이 모델이 맞는 팀과 안 맞는 팀
Mistral Small 4는 “범용 모델 3개를 1개로” 라는 방향 자체가 맞습니다. reasoning_effort 파라미터로 추론 깊이를 요청 단위로 조절하는 설계는 실제 프로덕션 파이프라인에서 가치가 있습니다. 두 엔드포인트를 유지하던 운영 부담이 사라집니다.
대신 이 모델이 맞는 상황은 꽤 구체적입니다. 온프레미스 필수 환경, 대규모 API 호출로 출력 토큰 비용이 부담되는 팀, 파인튜닝이 필수인 도메인 특화 서비스 — 여기서 Small 4의 Apache 2.0 + 출력 효율 조합이 빛납니다.
반대로 개인이 바로 로컬에 설치해서 쓰겠다, 이미지에서 공간 다이어그램을 자동 생성하겠다, 음성 입력을 처리하겠다는 경우라면 Small 4는 현재로선 맞지 않습니다.
벤치마크 순위만 따지면 Qwen3.5 계열에 밀리는 구간이 있지만, 출력 효율과 운영 단순성으로 계산해보면 Small 4가 더 경제적인 시나리오가 분명히 존재합니다. 이 모델이 “Small”이라 불리는 이유, 써보고 나서는 납득이 됩니다.
본 포스팅 참고 자료
- Introducing Mistral Small 4 — Mistral AI 공식 발표 (2026.03.16)
- Mistral Small 4 공식 모델 문서 — docs.mistral.ai
- Mistral Small 4 모델 카드 — Hugging Face (2026.03.16)
- NVIDIA NIM — Mistral Small 4 모델 카드
- Reddit r/LocalLLaMA — 커뮤니티 벤치마크 비교 스레드 (2026.03.16)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 Mistral AI 공식 발표(2026.03.16 기준) 및 공개된 커뮤니티 벤치마크를 바탕으로 작성됐으며, 이후 업데이트에 따라 달라질 수 있습니다.











댓글 남기기