Apache 2.0 오픈소스
119B MoE
Mistral Small 4, 3개 모델이 1개로 됩니다
추론 모델, 이미지 분석 모델, 코딩 에이전트 모델. 지금까지 Mistral이 따로따로 유지해오던 세 계열을 2026년 3월 16일 단 하나로 합쳤습니다. Mistral Small 4입니다.
왜 지금 Mistral Small 4가 화제인가
2026년 3월 16일, Mistral은 공식 블로그 하나와 Hugging Face 레포 하나만 올리고 조용히 배포를 시작했습니다. 출시 당일 GPT-5.4 mini와 nano가 동시에 공개됐는데도 흔들리지 않았습니다. 이게 Mistral의 스타일입니다.
지금까지 Mistral은 추론에는 Magistral, 이미지 분석에는 Pixtral, 코딩 에이전트에는 Devstral을 따로 운영해왔습니다. 엔터프라이즈 팀이라면 용도마다 모델 엔드포인트를 바꿔가며 써야 했죠. Small 4는 이 세 개를 하나로 묶었습니다. (출처: Mistral 공식 블로그, 2026.03.16)
Apache 2.0 라이선스라 상업적 사용, 파인튜닝, 재배포까지 제약이 없습니다. 오픈소스 모델 중에서 이 조건을 충족하면서 추론·멀티모달·코딩을 한 번에 쓸 수 있는 건 현재로선 Small 4가 처음입니다.
119B인데 실제 연산은 6.5B만 씁니다
💡 모델 크기와 실제 연산량을 같다고 보면 요금 계산에서 크게 틀릴 수 있습니다. 공식 발표문과 아키텍처 수치를 같이 보면 왜 그런지 바로 보입니다.
Small 4는 MoE(Mixture of Experts) 구조입니다. 전문가 서브네트워크가 128개 있는데, 토큰 하나를 처리할 때 그중 4개만 활성화됩니다. 총 파라미터는 119B이지만 실제로 연산에 참여하는 건 6.5B(임베딩 레이어 포함 시 약 8B)입니다. (출처: Hugging Face 공식 모델카드, 2026.03.16)
즉, GPT-4o mini급 연산 밀도로 훨씬 넓은 파라미터 공간을 활용합니다. 속도가 느릴 것 같지만 반대입니다. 직전 모델인 Mistral Small 3 대비 레이턴시는 40% 단축, 처리량은 3배 증가했습니다.
출처: Mistral 공식 블로그 / Hugging Face 모델카드 (2026.03.16 기준)
reasoning_effort가 파이프라인을 바꾸는 이유
💡 공식 발표문과 실제 API 배포 흐름을 같이 놓고 보니, 이 파라미터 하나가 서버 인프라 설계 방식 자체를 바꿀 수 있다는 게 보였습니다.
Small 4에는 reasoning_effort라는 파라미터가 있습니다. 요청마다 “빠른 응답”과 “깊은 추론” 중 하나를 고를 수 있습니다. 별도 모델 엔드포인트를 관리할 필요가 없습니다. (출처: Mistral 공식 문서, 2026.03.16)
🔧 사용 방식
빠른 응답 — Mistral Small 3.2와 동일한 속도. 분류·요약·추출 작업에 적합. 온도는 0.0~0.3 권장.
깊은 추론 — Magistral과 동일한 수준의 단계별 추론. 수학·코딩·복합 분석에 적합. 온도 0.7 권장.
기존 방식에서는 간단한 요청과 복잡한 요청을 다른 엔드포인트로 라우팅하는 로직을 별도로 만들어야 했습니다. Small 4에서는 파라미터 하나로 해결됩니다. 인프라 복잡도가 줄어드는 겁니다.
한 가지 솔직하게 말씀드리면, 출시 당일에는 이 파라미터가 공식 API 문서에 나와 있지 않았습니다. Mistral이 배포 먼저 하고 문서를 나중에 올린 겁니다. 이후 docs.mistral.ai에 업데이트됐지만, 출시 초반에 통합 작업을 시작한 팀이라면 이 점은 알고 시작하는 게 좋습니다.
벤치마크: Qwen보다 토큰을 75% 덜 씁니다
💡 점수만 보면 비슷해 보이지만, 같은 점수를 내는 데 필요한 출력 토큰 수가 다릅니다. 요금은 출력 토큰에서 결정됩니다.
Mistral 공식 발표에 따르면, AA LCR(장문 컨텍스트 추론) 벤치마크에서 Small 4는 0.72점을 1,600자의 출력으로 달성했습니다. 비슷한 점수를 낸 Qwen 모델들은 5,800~6,100자가 필요했습니다. 출력 토큰 기준 약 3.5~4배 차이입니다. (출처: Mistral 공식 블로그, 2026.03.16)
이게 실제 비용에서 어떤 의미냐면, 경쟁 모델의 입력 단가가 더 저렴하게 보여도 출력 토큰이 4배 많으면 실제 청구 금액은 역전됩니다. API 요금은 대부분 출력 토큰에 가중치가 더 크게 붙습니다. Small 4의 출력 단가는 $0.60/M 토큰입니다.
출처: Mistral 공식 블로그, Awesome Agents 리뷰 (2026.03.16~18 기준)
LiveCodeBench(코딩 벤치마크)에서는 GPT-OSS 120B를 앞서면서 출력량은 20% 적었습니다. instruct 모드 한정 출력 길이만 놓고 보면 Small 4가 2,100자, Claude Haiku가 14,200자, GPT-OSS 120B가 23,600자였습니다. 단순 채팅용으로는 Small 4 쪽이 토큰 낭비가 확연히 적습니다.
이 모델이 못하는 것, 솔직하게
실제 리뷰에서 확인된 약점부터 말씀드립니다. 공간적 추론이 약합니다. SVG 생성이나 도형·레이아웃 관계를 구조적 출력으로 바꾸는 작업에서 오류가 발생합니다. Mistral이 공식 이유를 밝히지 않았지만, 텍스트 우선 아키텍처의 한계로 보입니다. (출처: Awesome Agents 리뷰, 2026.03.18)
오디오와 비디오 입력은 지원하지 않습니다. 멀티모달이라고 하지만 현재 지원되는 입력은 텍스트와 이미지뿐입니다. 음성 처리나 영상 분석이 필요한 워크플로우에는 별도 모델이 필요합니다.
자체 호스팅 진입 장벽도 명확합니다. 최소 하드웨어 요건이 H100 4개 또는 H200 2개입니다. Apache 2.0으로 가중치가 완전 공개되어 있어도, 개인이나 소규모 팀이 로컬에서 돌리기는 사실상 불가능한 수준입니다.
⚠️ 벤치마크 투명성 주의
Mistral이 공개한 벤치마크는 선택적입니다. 표준 MMLU, HumanEval, MATH 점수는 공식 발표에 포함되지 않았습니다. 크로스벤치마크 비교가 어렵습니다. VentureBeat 분석에서도 동일한 점이 지적됐습니다. (출처: VentureBeat, 2026.03.18)
그리고 경쟁 강도 문제. VentureBeat 인터뷰에서 Neurometric CEO Rob May는 “기술적으로는 경쟁력이 있지만, 테스트 대상에 포함될 만큼 마인드쉐어를 얻는 게 더 큰 과제”라고 했습니다. 점수가 좋아도 개발팀이 먼저 떠올리는 모델이 아니면 쓰일 기회가 없다는 말입니다.
요금과 접근 방법 정리
💡 API 단가만 보면 저렴해 보이지 않을 수 있는데, 출력 효율까지 같이 보면 셈법이 달라집니다.
Mistral API 기준 요금은 입력 $0.15/M 토큰, 출력 $0.60/M 토큰입니다. 모델 ID는 mistral-small-2603입니다. OpenRouter에서도 동일 모델 ID로 이용할 수 있습니다. (출처: Mistral 공식 문서, 2026.03.16)
📌 접근 경로 요약
🔵 Mistral API
mistral.ai / AI Studio
즉시 사용 가능
🟠 Hugging Face
BF16 풀웨이트 / NVFP4 양자화
Apache 2.0 자유 이용
🟢 NVIDIA NIM
build.nvidia.com
무료 프로토타이핑 가능
🔴 로컬 추론
vLLM / llama.cpp / LM Studio
H100 4개 이상 필요
파인튜닝은 Axolotl을 통해 공식 지원합니다. NVIDIA NeMo로도 도메인 특화 파인튜닝이 가능하고, NVFP4 양자화 체크포인트로 메모리 풋프린트를 줄이는 방법도 열려 있습니다. BF16 풀웨이트 기준 용량은 약 242GB입니다.
자주 묻는 질문
마치며
Mistral Small 4는 기술적으로 분명히 잘 만든 모델입니다. 119B 파라미터 중 6.5B만 활성화하면서 Magistral·Pixtral·Devstral을 하나로 합쳤고, reasoning_effort 파라미터로 요청별 추론 깊이를 조절할 수 있습니다. 출력 효율도 좋습니다.
제 솔직한 판단을 말씀드리면, 지금 당장 쓰기 좋은 대상은 명확합니다. API 규모로 고용량 워크플로우를 돌리면서 오픈소스·파인튜닝 자유도가 중요한 팀입니다. 개인이 로컬에서 돌리려는 분들에게는 아직 진입 장벽이 높습니다.
아쉬운 점도 있습니다. 벤치마크가 선택적으로 공개됐고, 출시 당일 문서가 뒤처졌습니다. 공간적 추론에도 한계가 있고요. 좋은 모델이지만 모든 걸 해결해주는 모델은 아닙니다.
📎 본 포스팅 참고 자료
- Mistral AI 공식 블로그 — Introducing Mistral Small 4 (2026.03.16)
- Hugging Face 공식 모델카드 — Mistral-Small-4-119B-2603 (2026.03.16)
- Mistral 공식 문서 — mistral-small-4-0-26-03 (2026.03.16)
- VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding (2026.03.18)
- Awesome Agents — Mistral Small 4 Review (2026.03.18)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.16 Mistral 공식 발표 기준이며, 이후 업데이트로 달라질 수 있습니다.

댓글 남기기