Mistral Small 4 (2026.03.16 출시)
Apache 2.0
Mistral Small 4, 이 경우에만 빠른 게 맞습니다
2026년 3월 16일, Mistral AI가 Small 4를 출시했습니다. 이름은 “Small”이지만 총 파라미터는 119B입니다. 그런데 실제로 추론할 때 쓰는 활성 파라미터는 6.5B에 불과합니다. 이 구조 하나가 비용 계산을 완전히 바꿉니다. 추론 모드를 어떻게 설정하느냐에 따라 같은 모델이라도 출력 토큰 수가 10배 이상 차이 나기 때문에, 무조건 “빠르다”고 받아들이면 예상 밖 청구서를 받을 수 있습니다.
119B짜리인데 왜 “Small”인가
솔직히 처음 접했을 때 이름이 헷갈립니다. “Small”이라고 해서 가벼운 7B~24B급 모델을 떠올렸다면, 총 파라미터 기준으로는 완전히 틀렸습니다. 119B입니다. GPT-OSS 120B와 비슷한 규모입니다.
Mistral이 “Small”이라고 부르는 이유는 추론할 때 실제로 작동하는 파라미터 수가 6.5B이기 때문입니다. MoE(Mixture of Experts) 아키텍처로, 128개 전문가 중 토큰마다 4개만 활성화됩니다. 즉, 모델을 저장하고 올리는 데는 큰 GPU가 필요하지만, 추론 속도는 6.5B급 모델처럼 빠르다는 뜻입니다. (출처: Mistral 공식 블로그, 2026.03.16)
이 구분이 중요한 이유는 딱 하나입니다. 비용 계산할 때 “파라미터 수 = 비용” 공식이 여기서는 맞지 않습니다. 토큰당 실제 연산량은 6.5B 모델과 비슷하니까요.
추론 모드 설정이 비용을 결정합니다
Mistral Small 4의 핵심 파라미터는 reasoning_effort입니다. 이 값 하나로 같은 모델이 완전히 다른 비용 구조를 갖습니다.
| 설정값 | 동작 방식 | 출력 길이 (VentureBeat 기준) |
|---|---|---|
reasoning_effort="none" |
Mistral Small 3.2와 동일 스타일의 빠른 응답 | 약 2.1K 문자 |
reasoning_effort="high" |
단계별 추론 포함, 이전 Magistral 모델과 유사 | 약 18.7K 문자 |
(출처: VentureBeat, 2026.03.20 / Mistral 공식 벤치마크)
none과 high 사이 출력 길이 차이가 약 9배입니다. 출력 토큰 가격이 입력보다 비싼 구조($0.60/1M)에서는, 추론 모드를 켜는 순간 같은 작업에 9배 가까운 비용이 발생할 수 있습니다.
high를 쓰고 단순 분류는 none으로 돌리면, 같은 API 엔드포인트에서 비용을 세밀하게 제어할 수 있습니다.
Mistral API 기준 Mistral Small 4의 입력 가격은 $0.15/1M 토큰, 출력은 $0.60/1M 토큰입니다. (출처: MarginDash Mistral 요금 가이드, 2026.03 기준)
3개 모델을 1개로 합쳤을 때 실제로 달라지는 것
Mistral Small 4는 이전에 별도로 존재하던 세 가지 모델을 하나로 통합합니다. Magistral(추론), Pixtral(멀티모달), Devstral(에이전틱 코딩)입니다. (출처: Mistral 공식 블로그, 2026.03.16)
이 통합이 실질적으로 의미 있는 이유는 파이프라인 설계 때 드러납니다. 문서에서 이미지를 파싱하고, 그 내용으로 코드를 짜고, 코드를 에이전트가 실행하는 흐름을 이전에는 3개 API 호출로 처리해야 했습니다. 이제 단일 모델로 처리할 수 있습니다. 모델 간 컨텍스트 전달 오버헤드가 사라집니다.
즉, “전문 모델 3개를 합쳤다”는 표현이 각 특화 모델의 성능을 그대로 유지한다는 뜻은 아닙니다. VentureBeat에 따르면 LiveCodeBench에서 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 범용성을 얻은 대신 각 영역의 첨단 성능은 포기했습니다. (출처: VentureBeat, 2026.03.20)
Qwen·Claude Haiku와 수치로 비교해봤습니다
Mistral 공식 발표에서 강조하는 포인트는 “같은 성능을 더 짧은 출력으로”입니다. AA LCR 벤치마크에서 Mistral Small 4가 0.72 점수를 낼 때 출력 길이는 1.6K 문자, Qwen 모델은 동급 성능에 5.8K~6.1K 문자가 필요했습니다. 3.5~4배 차이입니다. (출처: Mistral 공식 블로그, HuggingFace 모델 카드, 2026.03.16) 짧은 출력 = 낮은 레이턴시 + 낮은 비용입니다.
| 모델 | Instruct 출력(문자) | 입력 가격/1M | 출력 가격/1M |
|---|---|---|---|
| Mistral Small 4 | 약 2.1K | $0.15 | $0.60 |
| Claude Haiku (Instruct) | 약 14.2K | 비공개 | 비공개 |
| GPT-OSS 120B | 약 23.6K | $2.00 | $8.00 |
(출처: VentureBeat, 2026.03.20 / MarginDash Mistral 가격 가이드)
Instruct 모드에서 Mistral Small 4의 출력이 GPT-OSS 120B 대비 약 11배 짧습니다. 출력 비용만 따지면 같은 작업에 GPT-OSS 대비 훨씬 저렴하게 처리할 수 있습니다.
다만 코딩 벤치마크(LiveCodeBench)에서는 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 코딩 성능이 최우선이라면 Devstral을 따로 쓰는 게 나을 수 있습니다. (출처: VentureBeat, 2026.03.20)
쓰면 안 되는 상황이 있습니다
실사용 피드백(Reddit r/MistralAI, 2026.03.18)을 보면 Small 4에 대한 실망 사례가 꽤 나옵니다. 가장 많이 언급되는 패턴은 세 가지입니다.
반대로 쓸 만한 상황은 명확합니다. 문서 파싱 + 이미지 분석 + 경량 추론을 하나의 워크플로우에서 처리해야 하는 엔터프라이즈 환경, 그리고 API 비용 최적화를 위해 요청별로 reasoning 수준을 조절해야 하는 고트래픽 서비스가 핵심 대상입니다.
로컬 배포 실제 가능 여부
Apache 2.0 라이선스로 오픈소스 공개된 게 Small 4의 큰 강점 중 하나입니다. Hugging Face에서 NVFP4 양자화 체크포인트도 공식 제공합니다. (출처: HuggingFace 모델 카드, 2026.03.16)
실제 로컬 배포를 위한 최소 스펙과 권장 스펙은 아래와 같습니다.
| 구분 | 구성 |
|---|---|
| 최소 인프라 | 4×NVIDIA HGX H100, 2×HGX H200, 또는 1×DGX B200 |
| 권장 인프라 | 4×HGX H100/H200, 또는 2×DGX B200 |
| 지원 프레임워크 | vLLM(권장), llama.cpp, SGLang, Transformers |
(출처: Mistral 공식 블로그, 2026.03.16)
vLLM 기준으로 현재 공식 메인 브랜치에는 tool calling·reasoning 파싱 수정이 아직 머지되지 않아 Mistral이 커스텀 Docker 이미지를 제공하고 있습니다. 공식 문서에 따르면 2026년 3월 16일 기준 1~2주 내 머지 예정이라고 밝혔지만, 정확한 머지 완료 시점은 아직 공개되지 않았습니다. (출처: HuggingFace 모델 카드, 2026.03.16)
일반 개발자 환경(RTX 3090, RTX 4090 단일 또는 2장)에서는 GGUF 4-bit 양자화로만 실행 가능하고, 이때 성능 저하가 발생합니다. 소규모 팀이라면 Mistral API를 쓰는 게 현실적입니다.
자주 나오는 질문
마치며
Mistral Small 4는 “만능 중간재”라는 포지셔닝이 핵심입니다. 각 분야 최정상은 아니지만, 문서·이미지·추론·코딩을 하나의 API로 처리해야 할 때 파이프라인을 단순하게 만들어줍니다.
기대했던 것과 달랐던 부분도 있습니다. “Small”이라는 이름이 만든 기대치와 119B라는 실제 규모 사이의 간극, 그리고 추론 모드 설정에 따라 비용이 9배 가까이 달라진다는 점은 실제로 쓰기 전에 꼭 파악해야 합니다. 이 구조를 이해하지 못하면 API 비용이 예상치를 한참 넘을 수 있습니다.
결론부터 말하면, 멀티모달 + 경량 추론을 복합적으로 써야 하는 서비스에서 비용 최적화를 고민 중이라면 테스트해볼 가치가 충분합니다. 단순 텍스트 작업이나 코딩 최우선 파이프라인이라면 Small 3.2나 Devstral이 여전히 더 나은 선택입니다.
📚 본 포스팅 참고 자료
- Mistral AI 공식 블로그 — Introducing Mistral Small 4 (https://mistral.ai/news/mistral-small-4)
- HuggingFace 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (https://huggingface.co/mistralai/Mistral-Small-4-119B-2603)
- VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding, 2026.03.20 (venturebeat.com)
- Artificial Analysis — Mistral Small 4 Intelligence & Performance (artificialanalysis.ai)
- MarginDash — Mistral API Pricing 2026 (margindash.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 Mistral Small 4 (2026.03.16 출시 버전) 기준이며, 이후 업데이트에 따라 달라질 수 있습니다. API 가격은 공식 요금 페이지에서 최신 정보를 확인하세요.











댓글 남기기