Mistral Small 4, 3개 모델이 1개로 됩니다

Published on

in

Mistral Small 4, 3개 모델이 1개로 됩니다

2026.03.16 기준 / v26.03
Apache 2.0 오픈소스
119B MoE

Mistral Small 4, 3개 모델이 1개로 됩니다

추론 모델, 이미지 분석 모델, 코딩 에이전트 모델. 지금까지 Mistral이 따로따로 유지해오던 세 계열을 2026년 3월 16일 단 하나로 합쳤습니다. Mistral Small 4입니다.

119B
총 파라미터
6.5B
토큰당 활성 파라미터
256K
컨텍스트 윈도우
$0.15
입력 /M 토큰

왜 지금 Mistral Small 4가 화제인가

2026년 3월 16일, Mistral은 공식 블로그 하나와 Hugging Face 레포 하나만 올리고 조용히 배포를 시작했습니다. 출시 당일 GPT-5.4 mini와 nano가 동시에 공개됐는데도 흔들리지 않았습니다. 이게 Mistral의 스타일입니다.

지금까지 Mistral은 추론에는 Magistral, 이미지 분석에는 Pixtral, 코딩 에이전트에는 Devstral을 따로 운영해왔습니다. 엔터프라이즈 팀이라면 용도마다 모델 엔드포인트를 바꿔가며 써야 했죠. Small 4는 이 세 개를 하나로 묶었습니다. (출처: Mistral 공식 블로그, 2026.03.16)

Apache 2.0 라이선스라 상업적 사용, 파인튜닝, 재배포까지 제약이 없습니다. 오픈소스 모델 중에서 이 조건을 충족하면서 추론·멀티모달·코딩을 한 번에 쓸 수 있는 건 현재로선 Small 4가 처음입니다.

119B인데 실제 연산은 6.5B만 씁니다

💡 모델 크기와 실제 연산량을 같다고 보면 요금 계산에서 크게 틀릴 수 있습니다. 공식 발표문과 아키텍처 수치를 같이 보면 왜 그런지 바로 보입니다.

Small 4는 MoE(Mixture of Experts) 구조입니다. 전문가 서브네트워크가 128개 있는데, 토큰 하나를 처리할 때 그중 4개만 활성화됩니다. 총 파라미터는 119B이지만 실제로 연산에 참여하는 건 6.5B(임베딩 레이어 포함 시 약 8B)입니다. (출처: Hugging Face 공식 모델카드, 2026.03.16)

즉, GPT-4o mini급 연산 밀도로 훨씬 넓은 파라미터 공간을 활용합니다. 속도가 느릴 것 같지만 반대입니다. 직전 모델인 Mistral Small 3 대비 레이턴시는 40% 단축, 처리량은 3배 증가했습니다.

항목 Mistral Small 3 Mistral Small 4
총 파라미터 24B 119B
활성 파라미터 24B 약 6.5B
컨텍스트 윈도우 128K 256K
레이턴시 개선 40% 단축
초당 처리량 3배 증가

출처: Mistral 공식 블로그 / Hugging Face 모델카드 (2026.03.16 기준)

reasoning_effort가 파이프라인을 바꾸는 이유

💡 공식 발표문과 실제 API 배포 흐름을 같이 놓고 보니, 이 파라미터 하나가 서버 인프라 설계 방식 자체를 바꿀 수 있다는 게 보였습니다.

Small 4에는 reasoning_effort라는 파라미터가 있습니다. 요청마다 “빠른 응답”과 “깊은 추론” 중 하나를 고를 수 있습니다. 별도 모델 엔드포인트를 관리할 필요가 없습니다. (출처: Mistral 공식 문서, 2026.03.16)

🔧 사용 방식

none

빠른 응답 — Mistral Small 3.2와 동일한 속도. 분류·요약·추출 작업에 적합. 온도는 0.0~0.3 권장.

high

깊은 추론 — Magistral과 동일한 수준의 단계별 추론. 수학·코딩·복합 분석에 적합. 온도 0.7 권장.

기존 방식에서는 간단한 요청과 복잡한 요청을 다른 엔드포인트로 라우팅하는 로직을 별도로 만들어야 했습니다. Small 4에서는 파라미터 하나로 해결됩니다. 인프라 복잡도가 줄어드는 겁니다.

한 가지 솔직하게 말씀드리면, 출시 당일에는 이 파라미터가 공식 API 문서에 나와 있지 않았습니다. Mistral이 배포 먼저 하고 문서를 나중에 올린 겁니다. 이후 docs.mistral.ai에 업데이트됐지만, 출시 초반에 통합 작업을 시작한 팀이라면 이 점은 알고 시작하는 게 좋습니다.

벤치마크: Qwen보다 토큰을 75% 덜 씁니다

💡 점수만 보면 비슷해 보이지만, 같은 점수를 내는 데 필요한 출력 토큰 수가 다릅니다. 요금은 출력 토큰에서 결정됩니다.

Mistral 공식 발표에 따르면, AA LCR(장문 컨텍스트 추론) 벤치마크에서 Small 4는 0.72점1,600자의 출력으로 달성했습니다. 비슷한 점수를 낸 Qwen 모델들은 5,800~6,100자가 필요했습니다. 출력 토큰 기준 약 3.5~4배 차이입니다. (출처: Mistral 공식 블로그, 2026.03.16)

이게 실제 비용에서 어떤 의미냐면, 경쟁 모델의 입력 단가가 더 저렴하게 보여도 출력 토큰이 4배 많으면 실제 청구 금액은 역전됩니다. API 요금은 대부분 출력 토큰에 가중치가 더 크게 붙습니다. Small 4의 출력 단가는 $0.60/M 토큰입니다.

모델 AA LCR 점수 출력 길이 출력 단가(/M)
Mistral Small 4 0.72 1,600자 $0.60
Qwen 계열 (비교) 유사 5,800~6,100자 모델별 상이
GPT-OSS 120B Small 4 이하 비공개

출처: Mistral 공식 블로그, Awesome Agents 리뷰 (2026.03.16~18 기준)

LiveCodeBench(코딩 벤치마크)에서는 GPT-OSS 120B를 앞서면서 출력량은 20% 적었습니다. instruct 모드 한정 출력 길이만 놓고 보면 Small 4가 2,100자, Claude Haiku가 14,200자, GPT-OSS 120B가 23,600자였습니다. 단순 채팅용으로는 Small 4 쪽이 토큰 낭비가 확연히 적습니다.

이 모델이 못하는 것, 솔직하게

실제 리뷰에서 확인된 약점부터 말씀드립니다. 공간적 추론이 약합니다. SVG 생성이나 도형·레이아웃 관계를 구조적 출력으로 바꾸는 작업에서 오류가 발생합니다. Mistral이 공식 이유를 밝히지 않았지만, 텍스트 우선 아키텍처의 한계로 보입니다. (출처: Awesome Agents 리뷰, 2026.03.18)

오디오와 비디오 입력은 지원하지 않습니다. 멀티모달이라고 하지만 현재 지원되는 입력은 텍스트와 이미지뿐입니다. 음성 처리나 영상 분석이 필요한 워크플로우에는 별도 모델이 필요합니다.

자체 호스팅 진입 장벽도 명확합니다. 최소 하드웨어 요건이 H100 4개 또는 H200 2개입니다. Apache 2.0으로 가중치가 완전 공개되어 있어도, 개인이나 소규모 팀이 로컬에서 돌리기는 사실상 불가능한 수준입니다.

⚠️ 벤치마크 투명성 주의

Mistral이 공개한 벤치마크는 선택적입니다. 표준 MMLU, HumanEval, MATH 점수는 공식 발표에 포함되지 않았습니다. 크로스벤치마크 비교가 어렵습니다. VentureBeat 분석에서도 동일한 점이 지적됐습니다. (출처: VentureBeat, 2026.03.18)

그리고 경쟁 강도 문제. VentureBeat 인터뷰에서 Neurometric CEO Rob May는 “기술적으로는 경쟁력이 있지만, 테스트 대상에 포함될 만큼 마인드쉐어를 얻는 게 더 큰 과제”라고 했습니다. 점수가 좋아도 개발팀이 먼저 떠올리는 모델이 아니면 쓰일 기회가 없다는 말입니다.

요금과 접근 방법 정리

💡 API 단가만 보면 저렴해 보이지 않을 수 있는데, 출력 효율까지 같이 보면 셈법이 달라집니다.

Mistral API 기준 요금은 입력 $0.15/M 토큰, 출력 $0.60/M 토큰입니다. 모델 ID는 mistral-small-2603입니다. OpenRouter에서도 동일 모델 ID로 이용할 수 있습니다. (출처: Mistral 공식 문서, 2026.03.16)

📌 접근 경로 요약

🔵 Mistral API

mistral.ai / AI Studio
즉시 사용 가능

🟠 Hugging Face

BF16 풀웨이트 / NVFP4 양자화
Apache 2.0 자유 이용

🟢 NVIDIA NIM

build.nvidia.com
무료 프로토타이핑 가능

🔴 로컬 추론

vLLM / llama.cpp / LM Studio
H100 4개 이상 필요

파인튜닝은 Axolotl을 통해 공식 지원합니다. NVIDIA NeMo로도 도메인 특화 파인튜닝이 가능하고, NVFP4 양자화 체크포인트로 메모리 풋프린트를 줄이는 방법도 열려 있습니다. BF16 풀웨이트 기준 용량은 약 242GB입니다.

자주 묻는 질문

Mistral Small 4를 무료로 쓸 수 있나요?
build.nvidia.com에서 프로토타이핑 용도로 무료 사용이 가능합니다. Mistral AI Studio에서도 제한된 무료 체험을 제공합니다. 상업적 API 이용은 입력 $0.15/M, 출력 $0.60/M 토큰 기준으로 과금됩니다.
한국어도 지원되나요?
지원됩니다. Hugging Face 공식 모델카드에 명시된 지원 언어 목록에 한국어(Korean)가 포함되어 있습니다. 영어·프랑스어·스페인어·독일어·이탈리아어·포르투갈어·네덜란드어·중국어·일본어·아랍어 등 수십 개 언어를 지원합니다. (출처: Hugging Face 공식 모델카드, 2026.03.16)
라마.cpp나 LM Studio로 로컬 실행이 가능한가요?
가능합니다. Unsloth의 GGUF 체크포인트가 Hugging Face에 공개되어 있어 llama.cpp와 LM Studio에서 불러올 수 있습니다. 다만 BF16 풀웨이트 기준 약 242GB이므로, GGUF 양자화 버전을 사용해야 현실적으로 실행이 됩니다. H100 4개 미만 환경에서는 성능 저하가 발생할 수 있습니다.
reasoning_effort=”high”로 설정하면 항상 더 좋은 결과가 나오나요?
반드시 그렇지는 않습니다. reasoning_effort=”high”는 레이턴시가 늘어나고 출력이 길어집니다. 분류·요약·정보 추출처럼 단순한 작업에서는 오히려 비용 대비 효율이 떨어집니다. Mistral 공식 문서는 복잡한 수학·코딩·다단계 추론 작업에만 high를 권장합니다. (출처: Mistral 공식 문서, 2026.03.16)
파인튜닝은 어떻게 하나요?
Axolotl을 통한 파인튜닝이 공식으로 지원됩니다. GitHub의 axolotl-ai-cloud/axolotl 레포에 mistral4 예시 파일이 포함되어 있습니다. NVIDIA NeMo의 Automodel 예시도 제공됩니다. Apache 2.0 라이선스이므로 파인튜닝 결과물을 상업적으로 배포하는 데 제약이 없습니다.

마치며

Mistral Small 4는 기술적으로 분명히 잘 만든 모델입니다. 119B 파라미터 중 6.5B만 활성화하면서 Magistral·Pixtral·Devstral을 하나로 합쳤고, reasoning_effort 파라미터로 요청별 추론 깊이를 조절할 수 있습니다. 출력 효율도 좋습니다.

제 솔직한 판단을 말씀드리면, 지금 당장 쓰기 좋은 대상은 명확합니다. API 규모로 고용량 워크플로우를 돌리면서 오픈소스·파인튜닝 자유도가 중요한 팀입니다. 개인이 로컬에서 돌리려는 분들에게는 아직 진입 장벽이 높습니다.

아쉬운 점도 있습니다. 벤치마크가 선택적으로 공개됐고, 출시 당일 문서가 뒤처졌습니다. 공간적 추론에도 한계가 있고요. 좋은 모델이지만 모든 걸 해결해주는 모델은 아닙니다.

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.16 Mistral 공식 발표 기준이며, 이후 업데이트로 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기