Mistral Small 4, 119B인데 왜 이렇게 빠를까요?
2026년 3월 16일, Mistral AI가 조용히 던진 모델 하나가 업계 구도를 흔들고 있습니다.
총 파라미터 수만 보면 GPT-4 급인데, 실제 API 가격은 GPT-4o mini보다 낮습니다.
그 안에 어떤 구조가 숨어 있는지, 써보면 뭐가 달라지는지 정리했습니다.
119B인데 왜 빠른지 — MoE 구조가 핵심입니다
Mistral Small 4는 총 1,190억 개의 파라미터를 가지고 있습니다. 그런데 실제로 토큰 하나를 처리할 때 활성화되는 파라미터는 약 65억 개뿐입니다. 나머지 대다수는 그 토큰이 들어오는 순간 그냥 잠들어 있습니다. 이게 바로 Mixture-of-Experts(MoE) 아키텍처입니다.
구체적으로는 128개의 전문가(Expert) 서브네트워크가 있고, 각 토큰마다 그 중 4개만 선택해서 계산에 참여합니다. 어떤 전문가를 쓸지는 모델 내부의 라우팅 레이어가 자동으로 결정합니다. 코드 관련 토큰이면 코딩 전문 Expert들이, 이미지 분석이면 비전 Expert들이 활성화되는 식입니다.
💡 공식 발표 수치와 실제 추론 비용을 같이 놓고 보면 이런 그림이 나옵니다 — 119B 규모의 지식을 가지고 있으면서, 연산 비용은 6.5B 수준 모델과 같습니다. 단순히 빠른 게 아니라, “비싼 모델처럼 알고 싸게 쓰는 구조”입니다.
공식 발표에 따르면 이 구조 덕분에 Mistral Small 3 대비 초당 처리 요청이 3배 늘었고, 응답 완료 시간은 40% 단축됐습니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 같은 서버에서 초당 100개 요청을 처리하던 파이프라인이 Small 4로 바꾸면 이론상 300개까지 버팁니다.
덩치는 커졌는데 연산이 더 가벼워진 이유가 여기 있습니다. 총 파라미터 수는 Mistral Small 3의 24B에서 119B로 5배 커졌지만, 토큰당 활성 파라미터는 오히려 줄었습니다(24B → 6.5B). 규모를 키우면서도 추론 비용을 낮춘 것입니다.
모델 3개를 1개로 — 통합이 실제로 의미하는 것
이 모델이 나오기 전까지 Mistral 에코시스템을 제대로 활용하려면 적어도 세 가지 모델을 따로 관리해야 했습니다. 추론·수학 문제를 위한 Magistral, 이미지·문서 분석을 위한 Pixtral, 코딩 에이전트용 Devstral. 각각 별도 API 엔드포인트, 별도 비용 라인, 별도 인프라가 필요했습니다.
Mistral Small 4는 이 세 가지를 하나의 모델 ID(mistral-small-2603)로 통합했습니다. 텍스트, 이미지, 추론, 코드 에이전트 — 같은 엔드포인트에 요청만 달리 보내면 됩니다. (출처: Mistral AI 공식 발표, 2026.03.16)
실제 서비스 아키텍처 관점에서 이게 중요한 이유가 있습니다. 여러 모델을 관리한다는 건 단순히 API 키 여러 개가 아닙니다. 어떤 요청이 들어왔을 때 어느 모델로 라우팅할지를 결정하는 분류 로직, 각 모델별 응답 포맷 파싱, 장애 대응 플로우까지 전부 따로 만들어야 합니다. Small 4는 이 운영 복잡도를 한 번에 줄여줍니다.
💡 공식 릴리스노트와 실제 프로덕션 배포 흐름을 같이 보면 이런 차이가 보입니다 — “모델 통합”이 벤치마크 점수 문제가 아니라 운영 비용과 직결된다는 점입니다. 모델 수가 줄면 모니터링 포인트도 줄고, 장애 추적도 단순해집니다.
컨텍스트 윈도우도 기존 모델 대비 크게 늘었습니다. 256,000 토큰이면 한글 기준 약 20~25만 자 분량의 텍스트를 한 번에 처리할 수 있습니다. 200페이지짜리 계약서 전체를 하나의 프롬프트에 넣는 수준입니다. 이 덕분에 문서를 작은 덩어리로 쪼개서 처리하던 복잡한 RAG 파이프라인이 단순해집니다.
reasoning_effort, 파라미터 하나가 구조를 바꿉니다
Mistral Small 4에서 가장 눈여겨볼 신규 기능은 reasoning_effort 파라미터입니다. API 호출 시 이 값을 바꾸는 것만으로 모델의 동작 방식이 달라집니다.
| 파라미터 값 | 동작 방식 | 적합한 작업 |
|---|---|---|
"none" |
빠른 응답, Mistral Small 3.2 수준 | 분류, 요약, 데이터 추출 |
"high" |
단계적 추론, Magistral 수준 | 수학, 복잡한 플래닝, 코드 디버깅 |
이게 왜 아키텍처를 바꾸는 문제인지 설명하겠습니다. 지금까지 복잡도 차이가 있는 요청들을 처리하려면 두 가지 방법이 있었습니다. 첫째는 모든 요청을 무조건 고성능 모델로 보내는 것(비용 낭비), 둘째는 요청 분류기를 따로 만들어서 간단한 것은 빠른 모델로, 복잡한 것은 추론 모델로 보내는 것(구현 복잡도 증가)입니다.
reasoning_effort는 이 딜레마를 모델 내부로 가져왔습니다. 분류 로직을 서비스 레이어에서 만들 필요 없이, 요청 자체에 “이건 깊이 생각해야 하는 문제야”라고 태그를 붙이면 끝입니다. (출처: Mistral AI 공식 블로그, 2026.03.16)
실제 API 호출 예시 (Python)
from mistralai import Mistral
client = Mistral(api_key="YOUR_API_KEY")
# 빠른 모드 — 분류, 요약 등 일반 작업
response = client.chat.complete(
model="mistral-small-2603",
messages=[{"role": "user", "content": "이 문장을 한 줄로 요약해줘"}],
reasoning_effort="none"
)
# 깊이 생각하는 모드 — 수학, 복잡한 추론
response = client.chat.complete(
model="mistral-small-2603",
messages=[{"role": "user", "content": "이 코드의 버그를 찾아서 고쳐줘"}],
reasoning_effort="high",
temperature=0.7 # Mistral 공식 권장값
)
한 가지 주의할 점이 있습니다. 출시 당일에는 이 파라미터가 공식 API 문서에 없었습니다. Mistral은 기능을 먼저 배포하고 문서를 나중에 업데이트하는 패턴을 반복합니다. 지금은 docs.mistral.ai에 반영돼 있지만, 통합 초기에 이 점 때문에 혼선을 겪은 개발자들이 있었습니다.
출력 토큰이 1/4인데 성능이 같다면 — 비용 계산이 달라집니다
API 비용을 비교할 때 입출력 토큰 단가만 보는 건 절반짜리 계산입니다. 실제 비용은 “단가 × 토큰 수”인데, 모델마다 같은 답을 내는 데 쓰는 토큰 수가 다르기 때문입니다.
Mistral가 공개한 벤치마크 수치에 따르면, AA LCR(장문 컨텍스트 추론) 테스트에서 Mistral Small 4는 1,600자로 0.72점을 달성했습니다. 같은 구간에서 Qwen 계열 모델들은 5,800~6,100자를 생성해야 비슷한 점수를 냈습니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 같은 결과물을 만드는 데 쓰는 출력 토큰이 3.5~4배 적습니다.
📊 실제 비용 비교 계산 (추론 작업 100만 건 기준)
| 모델 | 출력 단가 (1M tok) | 평균 출력량 | 실비용 지수 |
|---|---|---|---|
| Mistral Small 4 | $0.60 | 1,600자 | 1.0× (기준) |
| Qwen 3.5-122B (비교) | — (추정) | 5,800~6,100자 | 약 3.6~3.8× |
※ 출력량 수치 출처: Mistral AI 공식 블로그 (2026.03.16). 실제 비용은 사용 패턴에 따라 달라질 수 있습니다.
LiveCodeBench 코딩 테스트에서도 GPT-OSS 120B보다 20% 적은 출력으로 높은 점수를 기록했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 출력이 적다는 건 단순히 답이 짧다는 게 아니라 군더더기 없이 요점을 잡아낸다는 뜻입니다.
실제 API 단가는 OpenRouter 기준 입력 $0.15 / 1M 토큰, 출력 $0.60 / 1M 토큰입니다. (출처: OpenRouter, mistralai/mistral-small-2603, 2026.03.16) Mistral 공식 AI Studio 가격은 2026년 3월 26일 현재 별도로 공표되지 않았습니다.
“오픈소스”라는 말 뒤에 숨은 진짜 조건
Mistral Small 4는 Apache 2.0 라이선스로 공개됐습니다. 상업적 이용, 파인튜닝, 재배포까지 제한이 없습니다. 이 점은 분명한 강점입니다. 그런데 “오픈소스라서 누구나 자유롭게 쓸 수 있다”는 말을 그대로 믿으면 한 가지에서 막힙니다.
⚠️ 자체 호스팅 최소 요구 사양
- 최소: NVIDIA HGX H100 × 4대 또는 HGX H200 × 2대
- 권장: HGX H100 × 4대, HGX H200 × 4대, 또는 DGX B200 × 2대
- 모델 웨이트: BF16 기준 약 242GB (FP8 체크포인트 권장)
출처: Mistral AI 공식 발표, emelia.io 기술 가이드 (2026.03.17)
H100 GPU 한 장을 클라우드에서 빌리면 시간당 약 $2~$4 수준입니다. 4장이면 시간당 $8~$16. 연속 운영하는 프로덕션 환경이라면 월 $5,760~$11,520 이상의 인프라 비용이 붙습니다. “라이선스 비용 없는 오픈소스”가 사실상 대기업이나 전문 인프라를 가진 팀의 전유물이 되는 구조입니다.
Ollama(로컬 실행 도구)를 통한 운영도 현재로서는 어렵습니다. 출시 시점에 llama.cpp 호환이 완전하지 않았고, 관련 PR이 열려 있는 상태입니다. HuggingFace Transformers로 로드할 때도 FP8 웨이트를 BF16으로 수동 변환해야 합니다. (출처: emelia.io 기술 가이드, 2026.03.17) 개인 연구자나 소규모 팀이 직접 돌리기에는 현재 진입장벽이 높습니다.
솔직히 말하면, Small 4의 “오픈소스” 장점은 API를 통한 비용 절감보다는 GDPR, 데이터 주권이 요구되는 기업 환경에서 데이터를 외부로 내보내지 않아도 된다는 컴플라이언스 측면이 더 현실적으로 다가옵니다. 그 외 일반 사용자라면 Mistral API나 NVIDIA NIM을 통한 API 접근이 현실적인 선택입니다.
표로 정리하면 각 모델의 위치가 명확해집니다.
| 항목 | Mistral Small 4 | GPT-4o mini | Gemini 2.0 Flash |
|---|---|---|---|
| 컨텍스트 윈도우 | 256K | 128K | 1M |
| 비전(이미지) | ✅ | ✅ | ✅ |
| 오디오 입력 | ❌ | ❌ | ✅ |
| 추론 깊이 조절 | 요청별 조절 | 없음 | 없음 |
| 라이선스 | Apache 2.0 | 독점 | 독점 |
| 자체 배포 | 가능 (고사양 필요) | API 전용 | API 전용 |
| GPQA Diamond | 71.2% | 40.2% | — |
※ 벤치마크 수치 출처: Mistral AI 공식 발표 (2026.03.16), emelia.io 기술 가이드 (2026.03.17). Gemini 2.0 Flash GPQA 수치는 아직 공개되지 않았습니다.
주관적으로 정리하면 이렇습니다. Mistral Small 4는 오디오 처리나 극한의 처리 속도가 필요한 상황보단, 복잡도가 들쑥날쑥한 작업을 처리해야 하는 팀, 또는 데이터 주권이 중요한 기업 환경에 가장 잘 맞습니다.
반면 이미지 처리 품질에서 한 가지 주의할 점이 있습니다. LocalLLaMA 커뮤니티에서는 양자화된 버전(Q4_K_M)으로 실행했을 때 이미지 인식 품질이 크게 떨어진다는 보고가 있었습니다. 공식 API를 통하면 같은 문제가 없었다는 후기도 있어서, 로컬 배포 시 체크포인트 선택이 중요합니다. Mistral은 FP8 체크포인트를 정확도 측면에서 권장하고 있습니다. (출처: Hugging Face, mistralai/Mistral-Small-4-119B-2603)
SVG 생성이나 다이어그램처럼 공간적 관계를 구조화된 형식으로 표현해야 하는 작업에서는 결과물이 불안정합니다. 이 부분은 Mistral이 별도로 언급하지 않았지만, 실사용 피드백에서 공통적으로 지적되고 있습니다.
Q&A
Q1. Mistral Small 4를 무료로 사용할 수 있나요?
NVIDIA의 build.nvidia.com에서 프로토타이핑 목적으로 무료 테스트가 가능합니다. Mistral AI Studio는 무료 티어에서 월 $5 상당의 크레딧을 제공하지만, 상용 규모 사용은 유료입니다. 자체 호스팅은 Apache 2.0 라이선스로 무료지만, 최소 4대의 H100 GPU가 필요합니다.
Q2. Ollama로 로컬에서 실행할 수 있나요?
2026년 3월 26일 현재 llama.cpp 공식 지원이 완전히 마무리되지 않았습니다. Ollama는 llama.cpp 기반이라 호환성에 제한이 있습니다. 관련 PR이 진행 중이므로 공식 저장소를 주시해야 합니다. vLLM과 SGLang은 출시 당일부터 지원됩니다.
Q3. reasoning_effort=”high”로 설정하면 비용이 더 많이 나오나요?
API 단가 자체는 모드에 상관없이 동일합니다. 다만 추론 모드에서는 내부적으로 chain-of-thought 토큰이 생성되기 때문에, 실제로 청구되는 출력 토큰이 늘어납니다. 추론 토큰이 과금 대상에 포함되는지 여부는 Mistral 공식 문서에 별도로 명시되지 않은 상태입니다.
Q4. 한국어 지원은 어떤가요?
공식 발표에서 24개 이상 언어를 지원한다고 밝혔으며, 한국어와 일본어가 포함됩니다. 다만 영어 대비 한국어 특화 벤치마크는 별도로 공개되지 않았습니다. 실사용 피드백 기준으로는 일반적인 텍스트 처리 수준에서 무난한 편이라는 후기가 많습니다.
Q5. 파인튜닝도 가능한가요?
Apache 2.0 라이선스 하에 파인튜닝과 상업적 이용이 모두 허용됩니다. NVIDIA NeMo를 통한 도메인 특화 파인튜닝을 공식 지원합니다. 다만 자체 파인튜닝을 위해서도 위에서 언급한 고사양 GPU 인프라가 필요합니다.
마치며
Mistral Small 4를 한 문장으로 정리하면 이렇습니다 — “크기는 크지만 연산은 작고, 답은 짧지만 품질은 높다.”
119B라는 숫자가 주는 부담과 달리, 실제 추론 비용은 6.5B 수준입니다. 출력 토큰이 경쟁 모델의 1/4 수준이라는 점은 표면 가격만 보면 놓치기 쉬운 부분입니다. reasoning_effort 파라미터 하나로 요청별로 추론 깊이를 조절할 수 있는 것도 기존 오픈소스 모델에는 없던 접근 방식입니다.
단, “오픈소스”라는 말이 “누구나 쉽게 로컬에서 실행할 수 있다”는 뜻은 아닙니다. 4대의 H100 GPU가 없다면 자체 호스팅은 아직 현실적이지 않습니다. 개인이나 소규모 팀이라면 API를 통한 접근이 현재로서 가장 합리적인 선택입니다.
이미 Mistral 에코시스템을 쓰고 있다면 Small 4는 분명히 검토할 가치가 있습니다. 모델 3개를 1개로 줄일 수 있는 기회는 인프라 복잡도와 운영 비용 양쪽에서 이점을 줍니다. 처음 시작한다면 build.nvidia.com에서 무료로 먼저 돌려보는 게 가장 빠른 판단 방법입니다.
📚 본 포스팅 참고 자료
- Mistral AI 공식 발표 — Introducing Mistral Small 4 (mistral.ai/news/mistral-small-4)
- Hugging Face — Mistral Small 4 컬렉션 (huggingface.co/collections/mistralai/mistral-small-4)
- NVIDIA NIM — Mistral Small 4 모델 카드 (build.nvidia.com/mistralai/mistral-small-4-119b-2603)
- OpenRouter — mistralai/mistral-small-2603 가격 정보 (openrouter.ai/mistralai/mistral-small-2603)
- emelia.io — Mistral Small 4 완전 가이드 · 벤치마크 (emelia.io/hub/mistral-small-4-complete-guide-benchmarks)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 26일 기준이며, 최신 정보는 Mistral AI 공식 사이트에서 확인하시기 바랍니다. API 가격 중 Mistral 공식 AI Studio 가격은 별도 발표가 이루어지지 않아 OpenRouter 기준 수치를 사용했습니다.

댓글 남기기