2026.03.17 출시 기준
Mistral Small 4 (mistral-small-2603)
Apache 2.0

Mistral Small 4, 119B인데 왜 빠를까요?

결론부터 말씀드리면, 119B 파라미터 중 실제로 켜지는 건 토큰당 6B뿐입니다. 나머지는 잠들어 있습니다. 이 구조 덕분에 Mistral Small 4는 119B짜리 무게를 달고도 GPT-4o mini급 속도로 추론을 처리합니다. 그런데 여기서부터 이야기가 복잡해집니다. 오픈소스라 “셀프호스팅 가능”이라고 홍보하지만, 최소 4×H100 GPU가 필요하다는 사실은 잘 알려지지 않았습니다. 직접 공식 문서와 벤치마크를 뜯어봤습니다.

119B

총 파라미터

토큰당 활성 파라미터

256K

컨텍스트 윈도우

-40%

지연시간(이전 세대 대비)

119B인데 왜 빠른가 — MoE 구조를 직접 뜯어봤습니다

총 파라미터와 활성 파라미터는 전혀 다른 개념입니다

Mistral Small 4의 공식 아키텍처 문서를 보면 이렇게 나옵니다. “119B total parameters, with 6.5B activated per token.” (출처: Mistral AI 공식 릴리스 노트, 2026.03.17) 즉, 119B짜리 모델이라도 실제 계산에 쓰이는 파라미터는 토큰 하나당 약 6B에 불과합니다. 계산 밀도 자체는 GPT-4o mini와 비슷한 수준입니다.

128개 전문가 중 4개만 깨어납니다

MoE(Mixture of Experts) 구조는 128개의 전문가 서브네트워크를 두고, 입력 토큰이 들어올 때마다 그 중 4개만 라우팅해서 계산에 참여시킵니다. 나머지 124개는 해당 토큰 처리 동안 연산에 개입하지 않습니다. 단순 계산으로, 119B 전체를 dense 모델처럼 돌린다면 지금보다 약 18~19배 더 많은 연산이 필요합니다. 크기는 크지만 추론 비용이 작은 이유가 바로 여기 있습니다.

이전 세대 대비 수치로 확인한 체감 차이

공식 발표문에는 두 가지 수치가 병기됩니다. 지연시간 최적화 환경에서 이전 Mistral Small 3 대비 종단 완성 시간 40% 단축, 처리량 최적화 환경에서 초당 요청 처리 수 3배 향상. (출처: mistral.ai/news/mistral-small-4) 40% 빨라진다는 건 10초 걸리던 요청이 6초로 줄어든다는 뜻입니다.

💡 공식 문서와 실제 아키텍처 수치를 같이 놓고 보니 이런 차이가 보였습니다. “119B 모델”이라는 표현은 저장 공간의 개념이지, 추론 비용의 개념이 아닙니다. 구매 전 스펙시트를 볼 때 활성 파라미터 수치를 먼저 확인하는 게 맞습니다.

▲ 목차로 돌아가기

추론 모드를 켜고 끌 수 있는 모델은 왜 드뭅니까

단일 모델로 빠른 응답과 깊은 사고를 동시에 처리합니다

Mistral이 이번 Small 4에서 가장 공들인 부분 중 하나가 reasoning_effort 파라미터입니다. API 요청 시 이 값을 "none"으로 설정하면 이전 Mistral Small 3.2와 동일한 빠른 응답 모드로 작동하고, "high"로 설정하면 Magistral 수준의 단계적 추론이 시작됩니다. (출처: HuggingFace 모델카드, mistralai/Mistral-Small-4-119B-2603)

왜 이게 파이프라인 설계에서 중요한지 설명합니다

기존에는 단순 분류 작업은 빠른 instruct 모델로, 복잡한 수학 추론은 별도의 reasoning 모델 엔드포인트로 라우팅하는 이중 구조를 유지해야 했습니다. Small 4는 같은 모델 ID에 파라미터 하나만 바꿔서 두 역할을 소화합니다. 엔드포인트 관리 비용, API 키 분리, 응답 파싱 로직이 절반으로 줄어듭니다.

출시 당일에 API 문서가 없었다는 점은 짚고 가겠습니다

3월 17일 출시 당시 reasoning_effort 파라미터는 모델 카드에만 언급됐고 공식 API 레퍼런스에는 빠져 있었습니다. Simon Willison의 기록에도 같은 문제가 나옵니다. 문서는 3월 23일자로 업데이트됐습니다. Mistral 특유의 “먼저 출시, 문서는 나중에” 패턴이 이번에도 반복된 셈입니다.

▲ 목차로 돌아가기

벤치마크 숫자보다 중요한 것 — 토큰 효율의 실제 의미

같은 점수를 내는데 토큰 수가 4분의 1입니다

공식 발표문의 벤치마크 중 가장 눈에 띄는 수치가 있습니다. AA LCR(장문 컨텍스트 추론) 테스트에서 Mistral Small 4는 0.72점을 출력 1,600자로 달성했습니다. 반면 Qwen 계열 모델들은 비슷한 점수를 내려면 5,800~6,100자가 필요합니다. (출처: mistral.ai/news/mistral-small-4) 같은 정답을 3.5~4배 더 긴 글로 써내는 모델과 비교하면, 출력 토큰 비용에서 실제 절감이 발생합니다.

가격표만 보면 놓치는 비용 함정이 있습니다

Mistral API 기준 Small 4의 토큰 단가는 입력 $0.15/백만, 출력 $0.60/백만입니다. (출처: awesomeagents.ai, 2026.03.18) 경쟁 모델이 동일한 품질을 내기 위해 출력 토큰을 4배 더 쏟아낸다면, 겉으로 더 싼 가격표를 달고도 실제 청구 금액은 역전될 수 있습니다. 예를 들어 출력 단가가 Small 4의 절반이더라도 토큰을 4배 쓰면 실제 비용은 2배입니다.

📊 출력 토큰 비용 직접 계산

가정: 동일 태스크에서 Qwen이 6,000자 출력, Small 4가 1,600자 출력
Qwen 출력 비용 단가가 $0.40/백만 토큰이라면 → 6,000자 ÷ 4자/토큰(추정) × $0.40 = $0.00060
Small 4 출력 비용 → 1,600자 ÷ 4자/토큰 × $0.60 = $0.00024
실제 출력 비용은 Small 4가 약 2.5배 저렴합니다.

LiveCodeBench 코딩 테스트에서도 같은 패턴입니다

LiveCodeBench 기준으로 Small 4는 GPT-OSS 120B를 출력 20% 덜 쓰면서 앞섰습니다. (출처: mistral.ai/news/mistral-small-4) 코드 생성 작업에서 출력 토큰이 20% 적다는 건 응답 완성 속도도 빠르고, API 비용도 그만큼 아낄 수 있다는 뜻입니다.

▲ 목차로 돌아가기

셀프호스팅, 해볼 만한가 — 하드웨어 현실 체크

Apache 2.0 라이선스지만 최소 H100 4장이 필요합니다

공식 문서에 명시된 최소 구동 환경은 4×NVIDIA HGX H100, 또는 2×NVIDIA HGX H200, 또는 1×NVIDIA DGX B200입니다. (출처: mistral.ai/news/mistral-small-4) 이 중 가장 접근하기 쉬운 클라우드 H100 4장을 임대하면, 클라우드 제공사에 따라 시간당 $15~$20 수준의 비용이 발생합니다. 모델 가중치 자체는 무료지만, 구동 인프라 비용은 무료가 아닙니다.

가중치 파일만 242GB, 다운로드부터 시간이 걸립니다

HuggingFace에 올라온 BF16 정밀도 기준 모델 파일 크기가 약 242GB입니다. (출처: simonwillison.net, 2026.03.16) NVFP4 양자화 버전을 쓰면 크기가 줄어들지만, Q4 계열 양자화는 품질 저하가 일부 발생합니다. 가벼운 태스크에는 양자화 모델이 충분하지만, GPQA Diamond 71.2%가 필요한 고난도 추론 작업이라면 양자화 모델 성능이 어느 수준까지 내려가는지 별도로 검증해야 합니다.

개인이나 소규모 팀은 API가 현실적입니다

Ollama로 로컬에서 돌리려면 Q4 양자화 기준으로도 시스템 RAM 32GB 이상, 고사양 GPU가 사실상 필수입니다. 결국 개인 개발자나 소규모 팀에게 “오픈소스이므로 자유롭게 쓸 수 있다”는 말이 실제로 통하는 경우는 많지 않습니다. 민감한 데이터를 외부로 보내면 안 되는 기업이나 대규모 트래픽이 있는 프로덕션 팀에게 셀프호스팅의 가치가 진짜 살아납니다.

배포 방식	최소 GPU	예상 비용	적합 대상
Mistral API	없음	$0.15~0.60/백만 토큰	개인·스타트업
클라우드 셀프호스팅	4×H100(최소)	약 $15~20/시간	중대형 팀
온프레미스 배포	4×H100 이상	초기 투자 수천만 원+	데이터 규제 기업
Ollama 로컬(양자화)	RAM 32GB+	하드웨어 비용만	실험·프로토타입

※ 클라우드 비용은 제공사별 상이. API 단가는 Mistral 공식 기준(2026.03 현재)

▲ 목차로 돌아가기

이미지 인식, 기대만큼 나왔나요

문서 파싱은 되고 공간 인식은 안 됩니다

Pixtral 계열의 비전 능력을 흡수해서 텍스트+이미지 입력을 기본으로 지원합니다. OCR 전용 엔드포인트(/v1/ocr)도 함께 공개됐고, 계약서·데이터시트처럼 구조화된 문서에서 표 추출, 계층 구조 인식은 실용적인 수준이라는 실사용 평가가 있습니다. (출처: awesomeagents.ai, 2026.03.18)

SVG 생성처럼 공간 좌표가 필요한 작업은 미완성입니다

Simon Willison이 “자전거를 탄 펠리칸” SVG 생성 요청을 테스트한 결과, 자전거가 뒤집히고 뭉개진 형태가 나왔습니다. (출처: simonwillison.net, 2026.03.16) 이미지를 이해하는 능력과 공간 좌표를 생성하는 능력은 다른 문제입니다. 레이아웃 자동화, 다이어그램 생성, 좌표 기반 산출물이 목적이라면 아직은 신중하게 테스트를 먼저 해봐야 합니다.

한국어 포함 24개 언어 지원이 명시됩니다

공식 모델 카드에 지원 언어 목록이 나옵니다. 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 중국어, 일본어, 한국어, 아랍어가 포함되어 있습니다. (출처: HuggingFace mistralai/Mistral-Small-4-119B-2603) 한국어 실사용 품질에 대한 공식 세부 벤치마크는 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

경쟁 모델과 직접 비교 — 어디서 이기고 어디서 집니까

GPT-OSS 120B보다 코딩에서 앞서면서 출력도 적습니다

Mistral 공식 자료 기준, LiveCodeBench에서 GPT-OSS 120B를 성능 면에서 앞서면서도 출력 토큰을 20% 덜 사용했습니다. AIME 2025 수학 추론에서는 reasoning_effort=”high” 기준으로 GPT-OSS 120B와 동등하거나 우위를 보였습니다. (출처: mistral.ai/news/mistral-small-4) 이 비교는 Mistral이 직접 선택한 벤치마크라는 점에서, HumanEval이나 MATH 등 표준 벤치마크가 공개되지 않은 부분은 감안해야 합니다.

Claude Haiku 대비 가장 큰 차이는 통제권입니다

코딩·수학 벤치마크에서 Claude Haiku 3.5와 비슷한 수준으로 평가됩니다. 결정적인 차이는 배포 방식입니다. Claude Haiku는 API 전용이고 가중치를 받을 수 없습니다. Small 4는 Apache 2.0으로 가중치를 내려받아 수정·재배포·파인튜닝이 모두 자유롭습니다. 민감한 데이터를 외부로 보내면 안 되는 환경이라면 이 차이가 결정적입니다.

Gemini Flash보다 느리고, 오디오는 지원 안 됩니다

처리량이 최우선인 워크로드에서는 Gemini 2.0 Flash 계열이 더 빠릅니다. Small 4는 텍스트와 이미지만 입력 받습니다. 오디오, 영상 입력은 지원하지 않습니다. 멀티모달 스택에서 음성 처리가 반드시 필요하다면 Small 4 하나로 해결이 안 됩니다.

구분	Mistral Small 4	Claude Haiku 4.5	Gemini 2.0 Flash
총 파라미터	119B (MoE)	비공개	비공개
컨텍스트	256K	200K	1M
오픈 가중치	✅ Apache 2.0	❌	❌
이미지 입력	✅	✅	✅
오디오 입력	❌	❌	✅
추론 모드 전환	✅ 파라미터 1개	별도 모델	별도 모델
API 출력 단가	$0.60/백만	비교 확인 필요	비교 확인 필요

※ 2026.03 기준 공개 수치. 비공개 항목은 해당 기업이 공개 자료를 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

Q&A

Q1. Mistral Small 4를 무료로 써볼 수 있나요?

build.nvidia.com에서 NVIDIA 가속 환경으로 프로토타이핑 무료 체험이 가능합니다. 모델 ID는 mistral-small-4-119b-2603입니다. Mistral AI Studio에서도 API 호출 테스트가 가능하며, 일정 한도 내 무료 크레딧이 제공됩니다.

Q2. reasoning_effort를 “high”로 하면 항상 좋은 건가요?

아닙니다. 단순 분류, 키워드 추출, 짧은 요약처럼 추론이 불필요한 작업에서 “high”를 쓰면 응답 시간만 늘어나고 비용도 올라갑니다. 공식 권고는 복잡한 수학, 멀티스텝 추론, 고난도 코딩 작업에서만 “high”를 사용하는 것입니다. 일상적인 대화나 분류 파이프라인에는 “none”이 적합합니다.

Q3. 한국어로 사용하면 영어보다 품질이 떨어지나요?

공식 지원 언어 목록에 한국어가 명시되어 있습니다. 다만 한국어 세부 벤치마크는 아직 공개되지 않았습니다. 일반적으로 유럽 언어 중심으로 훈련된 모델에서 한국어 성능이 영어보다 낮게 나오는 경향이 있으며, Small 4도 예외가 아닐 가능성이 있습니다. 실제 태스크로 직접 테스트하는 것이 가장 확실합니다.

Q4. 파인튜닝을 해보고 싶은데 어디서 시작해야 하나요?

HuggingFace 모델 카드에 Axolotl 기반 파인튜닝 예제가 공식으로 제공됩니다. QLoRA 방식이라면 A100 80GB 단일 GPU에서도 수천 건 규모 데이터셋 기준 수 시간 내로 작업이 가능합니다. Mistral la Plateforme에서 관리형 파인튜닝 서비스도 제공하며, 인프라 없이 시작할 수 있습니다.

Q5. 119B 모델인데 왜 이름이 “Small”인가요?

Mistral의 제품 라인업에서 “Small”은 절대적 파라미터 수가 아니라 활성 파라미터 기준의 추론 비용을 기준으로 명명됩니다. 토큰당 6B만 활성화하므로, 실제 추론 연산 밀도는 6B급 모델과 유사합니다. 동일 선상에 있는 Mistral Large처럼 더 무거운 모델과의 상대적 위치를 표현한 이름입니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 “하나의 모델로 추론·코딩·멀티모달을 동시에”라는 방향성에서 실질적인 진전을 보인 모델입니다. 특히 reasoning_effort 파라미터 하나로 두 가지 작동 방식을 전환하는 설계는, 프로덕션 파이프라인을 관리해본 입장에서 체감 편의가 생각보다 큽니다.

다만 “오픈소스라 무료로 쓸 수 있다”는 기대와, “최소 H100 4장이 필요하다”는 현실 사이의 간극은 크게 느껴졌습니다. Apache 2.0 자유도의 진가는 대규모 데이터를 외부 API로 내보내기 어려운 기업 환경에서 발휘됩니다. 개인 개발자나 소규모 팀이라면 Mistral API를 쓰는 게 훨씬 현실적입니다.

이미지 공간 추론의 한계, 출시 당일 문서 누락 같은 부분은 아쉽지만, 토큰 효율 측면에서 동급 모델 대비 3.5~4배 짧은 출력으로 같은 품질을 내는 수치는 실제 API 비용 계산에서 무시하기 어렵습니다. 가격표 단가만 보지 말고 출력 토큰 수를 같이 확인하는 것, 이 부분이 Small 4를 제대로 평가하는 출발점입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Mistral AI 공식 발표: Introducing Mistral Small 4 — mistral.ai/news/mistral-small-4
HuggingFace 공식 모델 카드 — huggingface.co/mistralai/Mistral-Small-4-119B-2603
Simon Willison’s Weblog: Introducing Mistral Small 4 — simonwillison.net/2026/Mar/16/mistral-small-4/
AwesomeAgents 리뷰: Mistral Small 4 Review — awesomeagents.ai/reviews/review-mistral-small-4/
NVIDIA NIM 모델 카드 — build.nvidia.com/mistralai/mistral-small-4-119b-2603

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026.04.01 기준으로 공개된 자료를 바탕으로 작성됐으며, Mistral AI의 업데이트에 따라 명시된 수치·기능·가격이 달라질 수 있습니다. 투자·기술 결정에 앞서 공식 문서를 직접 확인하시기 바랍니다.

Mistral Small 4, 119B인데 왜 빠를까요?