모델 버전: mistral-small-2603 (v26.03)
Mistral Small 4, 수치 4개로 직접 확인했습니다
발표 당일 공식 문서를 직접 뜯어봤습니다. “Small”이라는 이름 때문에 가볍게 볼 수 있는데, 실제 로컬 배포 조건을 보면 생각이 달라집니다. 동시에 API 가격과 출력 효율은 진짜 주목할 만한 수준이었습니다.
Mistral Small 4가 뭔지 30초로 정리
Mistral Small 4는 Mistral AI가 2026년 3월 16일에 공개한 최신 오픈소스 AI 모델입니다. (출처: Mistral AI 공식 발표, 2026.03.16) 기존에는 일반 대화용 모델, 추론 특화 모델(Magistral), 이미지 처리 모델(Pixtral), 코딩 에이전트 모델(Devstral)을 상황에 따라 따로 호출해야 했습니다. 이 네 가지를 하나의 모델로 통합한 게 Small 4입니다.
모델 ID는 mistral-small-2603이고, Apache 2.0 라이선스로 배포됩니다. 상업적 사용과 수정이 모두 가능하며 별도 사용료가 없습니다. NVIDIA GTC 2026 행사에서 발표와 동시에 공개됐고, 같은 날 NVIDIA와 Nemotron Coalition 파트너십도 함께 발표됐습니다.
💡 공식 발표문과 실제 배포 흐름을 같이 놓고 보니 — “통합”이라는 단어가 단순한 마케팅이 아니라 엔지니어링 구조 변화를 뜻하는 경우입니다. 모델 라우팅 로직을 따로 만들지 않아도 된다는 게 실제 개발 비용 차이로 연결됩니다.
솔직히 처음엔 “또 통합 모델이네” 싶었는데, 실제 스펙을 보니 설계 방식이 달랐습니다. 핵심은 파라미터 수가 아니라 아키텍처에 있었습니다.
119B인데 왜 6B처럼 빠른가 — MoE 구조
Mistral Small 4의 전체 파라미터는 119B입니다. 그런데 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 6.5B에 불과합니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16) 이게 Mixture-of-Experts(MoE) 아키텍처의 핵심입니다.
구조를 보면 128개의 전문가(expert) 서브네트워크가 있고, 각 토큰마다 그 중 딱 4개만 선택돼서 작동합니다. 전체 건물에 전문의가 128명 있는데 환자 한 명당 4명만 진료하는 방식이라고 보면 됩니다. 병원 전체 규모(119B)는 크지만 실제 연산 비용은 작은 병원(6.5B) 수준입니다.
| 항목 | Small 3 | Small 4 |
|---|---|---|
| 완료 시간(지연 최적화) | 기준값 | 40% 단축 |
| 초당 처리 요청 수 | 기준값 | 3배 |
| 컨텍스트 윈도우 | 약 32K | 256K |
| 멀티모달 지원 | 없음 | 텍스트+이미지 |
출처: Mistral AI 공식 발표문, 2026.03.16 / Hugging Face 모델 카드, 2026.03.16
처리 속도가 3배 빨라졌다는 건 동일한 GPU 비용으로 3배 더 많은 사용자를 처리할 수 있다는 뜻입니다. 상업용 서비스를 운영할 때 이 차이는 인프라 비용에 직접 영향을 줍니다.
reasoning_effort 파라미터, 이게 핵심입니다
Small 4에서 가장 눈에 띈 기능은 reasoning_effort 파라미터입니다. API 호출 시 요청 단위로 추론 깊이를 조절할 수 있습니다. (출처: Mistral AI 공식 문서, v26.03)
"none""high"이게 왜 중요하냐면, 기존에는 빠른 응답이 필요한 쿼리는 Small 계열 모델로, 복잡한 추론이 필요한 쿼리는 Magistral 모델로 각각 라우팅하는 로직을 코드로 짜야 했습니다. 규모가 커지면 이 라우팅 코드만 수백 줄이 됩니다.
💡 공식 문서와 실제 프로덕션 패턴을 비교해 보면 — 파라미터 하나로 라우팅 레이어를 대체할 수 있다면, 서빙 스택에서 모델을 하나 줄이는 게 아니라 유지보수 포인트 자체를 줄이는 얘기입니다.
reasoning_effort="none"은 온도(temperature) 0.0~0.7 사이를 권장하고, "high"는 0.7을 권장합니다. 공식 문서에 딱 이렇게 나옵니다. 복잡한 과제에서 온도를 너무 낮게 설정하면 추론이 오히려 경직될 수 있어 주의가 필요합니다.
벤치마크 수치보다 더 중요한 지표가 있습니다
공식 발표에서 Mistral이 강조한 건 점수가 아니라 출력 길이 대비 성능이었습니다. AA LCR 벤치마크에서 Small 4는 0.72 점수를 1,600자 출력으로 달성했습니다. (출처: Mistral AI 공식 발표문, 2026.03.16) 반면 유사한 점수를 내는 Qwen 계열 모델은 5,800~6,100자를 씁니다.
Qwen 대비 출력 길이가 3.5~4배 짧다는 건, 같은 작업을 처리할 때 API 비용이 3.5~4배 낮다는 뜻입니다. 출력 토큰 단가가 $0.60/1M이니, 1백만 번 쿼리 기준으로 Qwen 대비 출력 비용만 약 3배 이상 절감할 수 있습니다.
| 모델 | 점수 (AA LCR) | 평균 출력 길이 |
|---|---|---|
| Mistral Small 4 | 0.72 | 1,600자 |
| Qwen 계열 (유사 성능) | ~0.72 | 5,800~6,100자 |
| GPT-OSS 120B | ≤ 0.72 | — |
출처: Mistral AI 공식 발표문 및 Hugging Face 모델 카드, 2026.03.16. GPT-OSS 120B 대비 LiveCodeBench에서는 출력 20% 적음.
코딩 벤치마크인 LiveCodeBench에서도 Small 4는 GPT-OSS 120B보다 출력이 20% 짧으면서 성능은 앞섰습니다. 짧은 코드 출력은 단순히 비용 문제가 아니라, 자동화 파이프라인에서 파싱 오류와 버그 숨김 가능성을 낮추는 실용적 이점으로 직결됩니다.
“Small”이라고 로컬에서 쉽게 돌리면 안 되는 이유
이름이 “Small”이라 로컬에서 가볍게 돌릴 수 있다고 생각하면 크게 당할 수 있습니다. 공식 발표에서 밝힌 최소 배포 환경을 보면 이야기가 완전히 달라집니다.
- NVIDIA HGX H100 × 4대
- 또는 NVIDIA HGX H200 × 2대
- 또는 NVIDIA DGX B200 × 1대
출처: Mistral AI 공식 발표문, 2026.03.16
왜 이럴까요? MoE 구조상 토큰당 6.5B만 연산하지만, 모델 전체 119B 파라미터가 VRAM에 올라가 있어야 합니다. BF16 기준으로 약 238GB의 VRAM이 필요합니다. 추론 연산은 가볍지만, 모델을 메모리에 올리는 비용은 절감되지 않습니다. 병원 비유로 돌아가면 — 진료는 몇 명만 하지만 건물 임대료는 전체 규모로 냅니다.
💡 공식 하드웨어 권장 사양을 실제 비용 관점에서 보면 — H100 한 대 임대 비용이 시간당 약 $2~3인 점을 감안하면, 최소 4대 기준으로 월 운영 비용만 수천 달러입니다. 소규모 팀이라면 API 방식이 현실적입니다.
현실적인 대안은 세 가지입니다. Mistral API(api.mistral.ai)로 종량제 사용, NVIDIA Build에서 무료 프로토타이핑, 또는 NVIDIA NIM 컨테이너로 GPU 인프라가 있는 팀에서 배포하는 방식입니다. Hugging Face에는 llama.cpp와 LM Studio용 GGUF 양자화 버전도 올라와 있지만, 이 경우 성능 저하가 있을 수 있고 공식 권장 방식은 아닙니다.
API 가격과 실제 비용 계산
Mistral Small 4의 API 가격은 입력 토큰 $0.15/1M, 출력 토큰 $0.60/1M입니다. (출처: Mistral AI 공식 문서 v26.03 / OpenRouter 가격 페이지) 컨텍스트 윈도우는 262,144 토큰입니다.
예를 들어 입력 500 토큰 + 출력 200 토큰짜리 쿼리를 하루 10,000번 호출한다고 가정하면:
- 입력: 500 × 10,000 = 5M 토큰 → $0.15 × 5 = $0.75
- 출력: 200 × 10,000 = 2M 토큰 → $0.60 × 2 = $1.20
- 하루 합계: 약 $1.95 (약 2,800원)
※ 환율 약 1,440원/달러 기준 추정. 실제 요금은 Mistral AI 공식 페이지에서 확인 필요.
다른 모델과 비교하면 맥락이 더 잘 잡힙니다. Claude Sonnet 4.5 기준 입력 $3/1M, 출력 $15/1M과 비교하면 Small 4는 입력 20배, 출력 25배 저렴합니다. 물론 성능이 동일하지는 않지만, 간단한 분류·요약·일상 대화처럼 최고 성능이 불필요한 작업에서는 비용 격차가 실질적인 선택 기준이 됩니다.
| 모델 | 입력 (/1M) | 출력 (/1M) | 오픈소스 |
|---|---|---|---|
| Mistral Small 4 | $0.15 | $0.60 | ✅ Apache 2.0 |
| Gemini 2.5 Flash | $0.30 | — | ❌ |
| Claude Sonnet 4.5 | $3.00 | $15.00 | ❌ |
| Llama 4 Scout | $0.11 | — | ✅ |
출처: GitHub/salttechno LLM-Model-Comparison-2026, OpenRouter 가격 페이지. Gemini·Claude 가격은 공개 API 기준 추정치 포함.
Le Chat(미스트랄의 챗봇 서비스)에서는 Small 4가 기본 모델로 탑재됩니다. 개인 사용자 입장에서는 별도 API 없이 Le Chat 웹 인터페이스에서 바로 써볼 수 있다는 점도 실용적입니다.
Q&A — 자주 나오는 질문 5가지
마치며 — 총평
Mistral Small 4를 발표 당일부터 공식 문서와 벤치마크 수치를 직접 뜯어보고 난 총평입니다.
이 모델에서 진짜 흥미로웠던 건 “119B인데 6.5B처럼 작동한다”는 MoE 구조의 실용적 의미와, reasoning_effort 파라미터 하나로 모델 라우팅 레이어를 없앨 수 있다는 엔지니어링 관점이었습니다. 이미 AI 서비스를 프로덕션에서 운영 중인 팀이라면 모델 교체가 아니라 아키텍처 단순화 관점에서 평가해볼 만합니다.
반면 “Small”이라는 이름과 달리 로컬 배포 문턱은 높습니다. GPU 인프라 없이 시작하려면 API 방식이 현실적이고, NVIDIA Build에서 무료로 프로토타이핑부터 시작하는 게 가장 접근이 쉽습니다.
$0.15/1M이라는 입력 가격과 출력 효율(Qwen 대비 3.5~4배 짧음)을 놓고 보면, 대량 처리 작업에서의 비용 경쟁력은 솔직히 기대 이상이었습니다. 다만 한국어 복잡 추론에서의 실제 품질은 직접 테스트 없이는 섣불리 판단하기 어렵습니다. 이 부분은 별도로 확인해볼 예정입니다.
본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치와 스펙은 2026년 3월 16일~21일 공식 발표 자료 기준이며, 실제 서비스 이용 전 Mistral AI 공식 사이트에서 최신 정보를 직접 확인하시기 바랍니다.


댓글 남기기