2026.03.16 출시 기준
Mistral Small 4 v26.03
Apache 2.0

Mistral Small 4, 오픈소스인데 이 조건이면 못 씁니다

프랑스 AI 기업 Mistral이 2026년 3월 16일, 이름은 ‘Small’인데 총 파라미터 수는 119B인 모델을 조용히 공개했습니다. GPT-OSS 120B와 맞붙어 일부 벤치마크에서 앞서면서도 출력 토큰은 20% 적게 씁니다. Apache 2.0 라이선스라 무료로 가져다 쓸 수 있지만, 자체 서버 운영에는 최소 4x H100 GPU가 필요합니다. 뭘 믿고 써야 하는지, 어디서 막히는지 공식 수치로 직접 정리했습니다.

119B MoE
256k 컨텍스트
입력 $0.15/1M 토큰

‘Small’이라는 이름이 맞지 않는 이유

Mistral Small 4의 총 파라미터 수는 119B입니다. Qwen의 최신 MoE 모델이 약 122B, OpenAI가 공개한 GPT-OSS 120B와 나란한 수준입니다. (출처: Mistral 공식 발표 mistral.ai/news/mistral-small-4, 2026.03.16)

그런데 왜 이름이 ‘Small’일까요. 이 모델은 MoE(Mixture of Experts) 구조로, 128개 전문가 네트워크 중 토큰 하나당 4개만 활성화합니다. 실제로 추론 시 켜지는 파라미터는 약 6.5B입니다. 총 파라미터 119B에서 실제 활성 파라미터 6.5B로 줄어드는 구조, 여기서 ‘Small’은 크기가 아니라 활성 계산량을 뜻합니다.

💡 공식 문서(HuggingFace 모델 카드, 2026.03.16)와 실제 서버 운영 요구사항을 같이 놓고 보면 이런 차이가 보였습니다. 모델 이름 기준으로 “소형 모델이니 가볍겠지”라고 접근하면, 배포 단계에서 하드웨어 요구사항에 막히게 됩니다.

이번 버전이 이전 Mistral Small 3(24B)와 가장 크게 달라진 점 3가지를 정리하면 다음과 같습니다.

항목	Mistral Small 3	Mistral Small 4
총 파라미터	24B	119B
컨텍스트 윈도우	128k 토큰	256k 토큰
추론 모드	없음	reasoning_effort 파라미터
멀티모달	텍스트만	텍스트 + 이미지
처리 속도 향상	기준값	지연시간 40% 감소, RPS 3배

(출처: Mistral 공식 발표문 mistral.ai/news/mistral-small-4, HuggingFace 모델 카드 2026.03.16)

▲ 목차로 돌아가기

추론 모드를 하나의 파라미터로 조절하면 생기는 일

Mistral Small 4에서 가장 실용적인 변화는 reasoning_effort 파라미터입니다. 값을 "none"으로 놓으면 빠른 응답, "high"로 놓으면 단계별 추론이 켜집니다. 같은 모델 엔드포인트, 같은 API 호출로 이 두 가지를 오갈 수 있습니다. (출처: Mistral 공식 HuggingFace 모델 카드, 2026.03.16)

기존에는 빠른 응답이 필요하면 Mistral Small, 복잡한 추론이 필요하면 Magistral이라는 별도 모델로 라우팅해야 했습니다. Small 4는 이 두 경로를 하나로 합쳤습니다. 파이프라인 아키텍처를 단순하게 유지하면서도 작업 복잡도에 따라 비용과 품질을 조절할 수 있는 구조입니다.

reasoning_effort 설정 가이드 (Mistral 공식 권장)

“none” — 온도 0.0~0.7 / 분류·요약·추출처럼 빠른 응답이 필요한 작업

“high” — 온도 0.7 고정 / 수학, 코딩 에이전트, 멀티스텝 추론 작업

(출처: HuggingFace 모델 카드 권장 설정, 2026.03.16)

한 가지 주의할 점이 있습니다. 출시 당일에는 reasoning_effort 파라미터가 공식 API 레퍼런스에 빠져 있었습니다. Mistral은 기능을 먼저 배포하고 문서는 나중에 업데이트하는 방식으로 운영합니다. 현재(2026.03.31 기준)는 docs.mistral.ai에 반영되어 있지만, 빠른 배포 일정을 따라가다 보면 문서와 실제 동작 사이에 시차가 발생할 수 있습니다.

▲ 목차로 돌아가기

공식 벤치마크 수치, 직접 읽는 법

Mistral이 공개한 벤치마크에서 가장 눈에 띄는 수치는 AA LCR 결과입니다. Mistral Small 4는 점수 0.72를 출력 1,600자로 달성했습니다. 같은 벤치마크에서 Qwen 모델들은 비슷한 점수를 내기 위해 5,800~6,100자가 필요했습니다. 3.5~4배 더 긴 출력으로 비슷한 결과를 낸다는 뜻입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

LiveCodeBench 코딩 평가에서는 GPT-OSS 120B보다 높은 점수를 내면서 출력 토큰을 20% 적게 썼습니다. 출력 토큰이 곧 비용이므로, 이 수치는 API 사용 비용과 직결됩니다. 더 짧고 더 정확한 응답, 이게 Small 4가 내세우는 효율의 핵심입니다.

다만 솔직히 말하면, Mistral은 이번에 MMLU나 HumanEval 같은 표준 벤치마크 점수를 공개하지 않았습니다. 발표된 수치는 Mistral 자체 기준(AA LCR, AIME 2025, LiveCodeBench)에 집중되어 있어서 타 모델과 직접 교차 비교하기가 쉽지 않습니다. GPQA Diamond(대학원 수준 과학 문제) 71.2%, MMLU-Pro 78.0%는 공개됐지만, 이 정도로는 전체 그림을 그리기 어렵습니다.

▲ 목차로 돌아가기

오픈소스인데 자체 운영이 왜 어려운가

Apache 2.0 라이선스는 상업적 사용, 파인튜닝, 재배포를 모두 허용합니다. 그런데 자체 서버로 운영하려면 최소 4x NVIDIA H100 GPU가 필요합니다. HuggingFace에 공개된 BF16 전체 가중치는 약 242GB입니다. (출처: Mistral 공식 발표문, HuggingFace 모델 카드 2026.03.16)

NVFP4 양자화 체크포인트를 쓰면 용량을 줄일 수 있습니다. MacBook(128GB RAM 이상)에서 돌려보는 유튜브 영상도 있지만, 실제 업무 속도로 쓰기엔 무리가 있다는 평가가 많습니다. 개인 연구자나 소규모 팀이 ‘무료 라이선스니까 로컬 실행하면 되겠다’고 접근하면 하드웨어 비용에서 막히는 구조입니다.

⚠️ 자체 서버 운영 현실 체크

최소 사양: 4x H100 또는 2x H200 / 권장: 4x H200 또는 2x DGX B200
개인·소규모 팀의 경우 API 사용이 현실적입니다. Apache 2.0의 ‘자유’는 엔터프라이즈 인프라 환경에서 가장 잘 작동합니다.

(출처: Mistral 공식 발표문, 2026.03.16)

▲ 목차로 돌아가기

API 가격이 싸 보이는 이유와 실제 비용 계산

공식 API 가격은 입력 $0.15/백만 토큰, 출력 $0.60/백만 토큰입니다. (출처: docs.mistral.ai/models/mistral-small-4-0-26-03, 2026.03.16) 이 숫자만 보면 상대적으로 저렴해 보입니다. 여기서 출력 토큰 효율성이 의미를 가집니다.

같은 AA LCR 벤치마크에서 Qwen 모델이 6,000자짜리 출력을 뽑을 때, Small 4는 1,600자로 같은 점수를 냅니다. 출력 토큰 기준으로 환산하면 실질 비용이 Qwen 대비 약 62~73% 수준이 됩니다. 단순 헤드라인 가격 비교가 아니라 실제 태스크당 비용으로 따져야 한다는 뜻입니다.

📊 토큰 비용 비교 추정 (AA LCR 기준, 1,000건 요청 가정)

Mistral Small 4: 출력 약 1,600자 × 1,000건 = 약 160만 자 → 약 $0.24 (추정, 한국어 약 1.5토큰/자 기준)

Qwen 비교 모델: 출력 약 6,000자 × 1,000건 = 약 600만 자 → 약 $0.90 (추정, 동일 기준)

※ 위 수치는 공식 벤치마크 문자 수와 토큰 변환 기준으로 추정한 값입니다. 실제 청구 금액은 토큰나이저와 태스크 유형에 따라 달라질 수 있습니다.

▲ 목차로 돌아가기

절대 잘 못하는 것 2가지

① 공간 추론과 도형 생성

SVG나 다이어그램 생성 요청에 약합니다. 실사용 테스트에서 자전거 위 펠리컨 그림 요청에 뒤집힌 자전거가 나온 사례가 문서화되어 있습니다. (출처: Simon Willison 테스트 노트, 2026.03.16) 공간적 관계를 구조화된 출력으로 변환하는 작업은 신뢰하기 어렵습니다.

② 오디오·영상 입력 없음

텍스트와 이미지는 받지만, 오디오와 영상은 지원하지 않습니다. Gemini 계열처럼 음성 파일이나 영상 분석이 필요한 워크플로우에서는 대체재가 됩니다. 이 부분은 공개 모델 카드에 명시된 내용입니다. (출처: HuggingFace 모델 카드, 2026.03.16)

반대로, 텍스트 중심의 코딩·문서 분석·멀티스텝 추론에서는 이 모델의 강점이 살아납니다. 24개 이상 언어 지원에 한국어, 일본어, 아랍어가 포함되어 있고, OCR 엔드포인트(/v1/ocr)를 통한 문서 파싱도 공식 기능으로 제공됩니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. Mistral Small 4는 무료로 쓸 수 있나요?

가중치는 Apache 2.0으로 완전 무료 공개되어 있습니다. API 사용은 유료($0.15/$0.60 per M tokens)이고, NVIDIA build.nvidia.com에서 무료 프로토타입이 가능합니다. Mistral AI Studio에서도 API 접근이 됩니다.

Q. 개인 컴퓨터나 MacBook에서 돌릴 수 있나요?

GGUF 양자화 버전(Unsloth 제공)을 llama.cpp나 LM Studio에서 실행하는 것은 가능합니다. 단, 128GB RAM MacBook에서도 실용 속도를 내기 어렵다는 커뮤니티 보고가 많습니다. 업무 수준의 처리 속도를 원한다면 API 사용이 현실적입니다.

Q. reasoning_effort=”high”로 설정하면 비용이 얼마나 올라가나요?

추론 모드에서는 출력 토큰이 늘어납니다. “none” 모드와 “high” 모드의 출력 길이 차이는 태스크마다 다르지만, 복잡한 추론 문제에서는 2~5배 더 긴 출력이 나올 수 있습니다. Mistral 공식 문서에서 별도 추론 토큰 가격을 공개하지 않은 상태입니다. 따라서 실제 비용은 사용 패턴에 따라 직접 측정해봐야 합니다.

Q. 파인튜닝은 어떻게 하나요?

Axolotl을 통한 파인튜닝이 지원됩니다. Mistral이 출시와 동시에 공개한 Forge 엔터프라이즈 플랫폼에서도 맞춤 학습이 가능합니다. Apache 2.0 라이선스이므로 상업 목적 파인튜닝과 재배포가 허용됩니다.

Q. GPT-4o mini와 비교하면 어느 쪽이 나은가요?

단순 속도·처리량에서는 GPT-4o mini가 유리합니다. Small 4는 오픈 가중치라 자체 서버 운영·파인튜닝이 가능하고, 컨텍스트 윈도우가 256k로 훨씬 깁니다. 추론 모드를 켜면 복잡한 작업에서 GPT-4o mini보다 나은 결과가 나온다는 게 커뮤니티 평가입니다. GPT-4o mini는 온프레미스 배포 자체가 불가능하므로 이 조건이 핵심입니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 이름 때문에 과소평가받기 쉬운 모델입니다. 실제로는 Magistral(추론)·Pixtral(비전)·Devstral(코딩 에이전트)를 하나로 합친 119B MoE이고, 출력 효율은 같은 급 경쟁 모델보다 뚜렷하게 낫습니다. 막상 해보면 다른 점은, 동일한 API 엔드포인트에서 reasoning_effort 값 하나로 빠른 응답과 깊은 추론을 오갈 수 있다는 것입니다. 이 구조는 파이프라인 유지 비용을 실제로 낮춰줍니다.

반면 Apache 2.0이라는 라이선스가 자동으로 ‘무료로 어디서든 쓸 수 있음’을 의미하지는 않습니다. 자체 서버 운영 요건이 4x H100이라는 점에서, 이 오픈소스의 실질적인 혜택은 엔터프라이즈 환경에 집중됩니다. 개인이나 소규모 팀이라면 API로 접근하면서 출력 토큰 효율을 잘 계산하는 것이 현실적입니다.

SVG 생성, 공간 추론, 오디오·영상 처리가 필요한 워크플로우에는 맞지 않습니다. 이 이외 텍스트·이미지 기반 작업에서는 지금 시점에서 오픈 가중치 모델 중 상위권의 가성비를 내고 있습니다.

📎 본 포스팅 참고 자료

Mistral 공식 발표문 — https://mistral.ai/news/mistral-small-4
HuggingFace 공식 모델 카드 — https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
Mistral 공식 문서 (API 스펙·가격) — https://docs.mistral.ai/models/mistral-small-4-0-26-03
NVIDIA NIM 모델 카드 — https://build.nvidia.com/mistralai/mistral-small-4-119b-2603/modelcard
Awesome Agents 리뷰 — https://awesomeagents.ai/reviews/review-mistral-small-4/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 기재된 가격·스펙·한도는 2026.03.31 기준이며, Mistral의 업데이트에 따라 달라질 수 있습니다. 투자·사업 결정에 활용 시 반드시 공식 문서를 직접 확인하시기 바랍니다.

Mistral Small 4, 오픈소스인데 이 조건이면 못 씁니다

‘Small’이라는 이름이 맞지 않는 이유

추론 모드를 하나의 파라미터로 조절하면 생기는 일

공식 벤치마크 수치, 직접 읽는 법

오픈소스인데 자체 운영이 왜 어려운가

API 가격이 싸 보이는 이유와 실제 비용 계산

절대 잘 못하는 것 2가지

① 공간 추론과 도형 생성

② 오디오·영상 입력 없음

자주 묻는 질문

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 오픈소스인데 이 조건이면 못 씁니다

‘Small’이라는 이름이 맞지 않는 이유

추론 모드를 하나의 파라미터로 조절하면 생기는 일

공식 벤치마크 수치, 직접 읽는 법

오픈소스인데 자체 운영이 왜 어려운가

API 가격이 싸 보이는 이유와 실제 비용 계산

절대 잘 못하는 것 2가지

① 공간 추론과 도형 생성

② 오디오·영상 입력 없음

자주 묻는 질문

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기