2026.03.16 출시 / v26.03 기준
IT/AI

Mistral Small 4, 싸다는 말이 전부가 아닙니다

출시 직후 “GPT-5.4 Mini의 6분의 1 가격”이라는 말이 먼저 퍼졌습니다. 틀린 말은 아닙니다. 그런데 정작 중요한 숫자, 즉 실제로 활성화되는 파라미터 수와 경쟁 모델 대비 벤치마크를 같이 놓고 보면 그림이 좀 달라집니다.

$0.15

입력 1M 토큰

119B / 6.5B

총 파라미터 / 활성 파라미터

256K

컨텍스트 윈도우

Apache 2.0

라이선스

“Small”이지만 119B — 이 숫자가 왜 헷갈리는가

Mistral Small 4의 모델명(mistral-small-2603)과 실제 파라미터 수 사이에는 꽤 큰 간극이 있습니다. 총 파라미터는 119B로 사실상 “Large” 급이지만, 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 6.5B에 불과합니다. (출처: Mistral 공식 문서, 2026.03.16)

이게 가능한 이유는 MoE(Mixture of Experts) 아키텍처 때문입니다. 128개의 전문가 네트워크 중 매 토큰마다 4개씩만 선택해서 활성화합니다. 코딩 관련 토큰은 코딩 전문가에게, 언어 처리 토큰은 언어 전문가에게 라우팅됩니다. 나머지 124개는 그 순간만큼은 아무 연산 비용도 발생하지 않습니다.

💡 총 파라미터와 추론 비용은 다른 이야기입니다.
로컬 배포를 위해 필요한 VRAM(메모리)은 총 파라미터 기준인 약 242GB(BF16)입니다. 하지만 추론 속도와 API 비용은 활성 파라미터인 6.5B 기준으로 결정됩니다. 즉, 로컬 하드웨어 요구사항은 “Large급”이지만 속도는 “Small급”이라는 뜻입니다.

Mistral이 직접 밝힌 수치로는, 이전 모델인 Small 3 대비 완료까지 걸리는 시간이 40% 단축되고, 초당 처리 가능한 요청 수는 3배 늘었습니다. 빠르다는 건 맞습니다. 다만 그 빠름은 119B 모델이 아니라 사실상 6.5B짜리 모델이 빠른 것에 가깝습니다.

▲ 목차로 돌아가기

세 모델을 하나로 합쳤다는 것의 진짜 의미

Mistral Small 4는 사실 Mistral이 기존에 따로 운영하던 세 가지 모델을 하나로 합친 결과물입니다. 추론에 특화된 Magistral, 이미지·문서 처리용 Pixtral, 에이전틱 코딩 전용 Devstral이 합쳐졌습니다. (출처: Mistral 공식 발표, mistral.ai/news/mistral-small-4)

실용적으로 달라지는 점은 명확합니다. 기존에는 “이미지가 포함된 복잡한 수학 문제를 코드로 풀어야 할 때” Pixtral → Magistral → Devstral을 파이프라인으로 연결해야 했습니다. 이제 하나의 API 엔드포인트(mistral-small-2603)에서 그 흐름이 처리됩니다. 파이프라인 복잡성이 줄고, API 호출 횟수가 줄고, 그만큼 레이턴시도 줄어듭니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
합쳐진 게 단순히 “기능이 많아졌다”는 의미가 아닙니다. 세 모델이 각자 다른 파인튜닝 경로를 거쳤다는 게 핵심입니다. reasoning_effort 파라미터 하나로 Magistral과 동급의 깊은 추론 모드, Devstral과 동급의 코딩 에이전트 모드를 전환할 수 있게 됩니다.

새로 추가된 reasoning_effort 파라미터는 "none"과 "high" 두 값을 받습니다. "none"은 Small 3.2와 동일한 빠른 응답 모드입니다. "high"는 Magistral처럼 단계적 사고를 하는 모드입니다. 같은 API, 같은 가격표인데 용도가 완전히 달라집니다.

▲ 목차로 돌아가기

GPT-5.4 Mini 대비 6배 저렴한데 실제 비용 차이는?

Mistral Small 4의 API 가격은 입력 $0.15/1M 토큰, 출력 $0.60/1M 토큰입니다. (출처: Mistral 공식 문서, docs.mistral.ai/models/mistral-small-4-0-26-03, 2026.03.16) GPT-5.4 Mini는 입력 $0.75, 출력 $4.50으로 입력 기준 5배, 출력 기준 7.5배 차이가 납니다.

모델	입력/1M	출력/1M	컨텍스트	멀티모달
Mistral Small 4	$0.15	$0.60	256K	✅
GPT-5.4 Nano	$0.20	$1.25	400K	✅
Gemini 3.1 Flash-Lite	$0.25	$1.50	1M	✅
DeepSeek V3.2	$0.28	$0.42	128K	❌
GPT-5.4 Mini	$0.75	$4.50	400K	✅
Claude Haiku 4.5	$1.00	$5.00	200K	✅

(출처: Mistral 공식 문서, 각 서비스 공식 가격 페이지, 2026.03.23 기준 / tokencost.app 집계)

수치가 추상적으로 느껴진다면 실제 워크로드로 바꿔보겠습니다. 고객 응대 자동화를 하루 5,000건 처리한다고 가정합니다(요청당 입력 2K + 출력 500토큰). 공식 가격표 기준 직접 계산하면:

📊 월간 비용 비교 (고객 응대 5,000건/일 기준)

Mistral Small 4: (10M입력 × $0.15 + 2.5M출력 × $0.60) × 30일 ≈ 월 $99

GPT-5.4 Mini: (10M입력 × $0.75 + 2.5M출력 × $4.50) × 30일 ≈ 월 $563

※ 추론 토큰 오버헤드 포함 추정치 / 출처: tokencost.app 계산식 적용 (2026.03.23)

월 $464 차이가 납니다. 연간으로 환산하면 약 $5,568 절감입니다. 같은 품질이라면 이 차이는 결정적입니다. 문제는 ‘같은 품질’이라는 전제가 맞느냐는 부분인데, 다음 섹션에서 다루겠습니다.

▲ 목차로 돌아가기

벤치마크에서 놓치기 쉬운 숫자가 있습니다

Mistral이 공식 발표에서 강조한 수치는 LCR 스코어 0.72, 그리고 “GPT-OSS 120B를 일부 벤치마크에서 앞선다”는 것이었습니다. (출처: mistral.ai/news/mistral-small-4) 그런데 같은 발표 자료 안에 조용히 묻혀 있는 비교 대상이 있습니다. Qwen 3.5 35B-A3B입니다.

모델	파라미터	GPQA Diamond	MMLU-Pro	LiveCodeBench
Mistral Small 4 (추론)	119B / 6.5B 활성	71.2	78.0	63.6
Mistral Small 4 (일반)	119B / 6.5B 활성	59.1	73.5	—
Qwen 3.5 35B-A3B	35B / 3B 활성	84.2	85.3	74.6

(출처: Reddit LocalLLaMA 커뮤니티 실측, 2026.03.16 / Mistral 공식 벤치마크 자료 교차 확인)

숫자가 말해주는 것은 꽤 명확합니다. 활성 파라미터가 절반도 안 되는(3B) Qwen 3.5 35B-A3B가 세 항목에서 모두 앞섭니다. 순수 추론 품질 기준으로는 경쟁에서 뒤처집니다.

💡 그런데 Mistral이 실제로 이기고 있는 지표는 따로 있습니다.
AA LCR 0.72 달성 시 출력 길이가 1,600자인 반면, Qwen 모델들은 유사한 점수를 내기 위해 5,800~6,100자를 씁니다. 출력 토큰이 3.5~4배 더 필요합니다. 출력 가격 $0.60/1M 기준으로 같은 작업을 하면 Qwen은 토큰 비용이 3배 이상 올라갑니다. 벤치마크 점수는 낮지만 비용 효율은 역전됩니다.

즉, “품질 최우선”이라면 Qwen 3.5 35B-A3B 쪽이 낫습니다. 하지만 “대량 처리에서 토큰 비용 총합”을 기준으로 삼으면 Mistral Small 4가 다시 경쟁력을 찾습니다. 어떤 기준으로 비교하느냐에 따라 결론이 달라지는 모델입니다.

▲ 목차로 돌아가기

로컬 배포: H100 4장이 ‘최소’ 요건인 이유

MoE 구조라서 추론은 빠르지만, 모델 전체를 메모리에 올려야 한다는 점은 변하지 않습니다. Mistral 공식 발표에서 밝힌 최소 하드웨어는 NVIDIA HGX H100 4장, 또는 HGX H200 2장, 또는 DGX B200 1장입니다. (출처: mistral.ai/news/mistral-small-4) BF16 풀 프리시전 기준으로 약 242GB 메모리가 필요합니다.

일반 RTX 4090(24GB) 한 장으로는 어림도 없습니다. Q4 양자화를 적용해도 약 70GB 이상이 필요해서 최소한 64~96GB RAM 이상의 시스템이 필요합니다. Mistral 공식 이름은 “Small”이지만, 로컬 운영 환경만 보면 사실상 준엔터프라이즈 수준입니다.

⚠️ “6B 활성이니까 가볍겠지”라는 기대는 맞지 않습니다.
추론 속도는 활성 파라미터 수에 비례하지만, VRAM 점유량은 총 파라미터 크기에 좌우됩니다. 전문가 네트워크 전체가 메모리에 올라가 있어야 라우팅이 작동하기 때문입니다. 소비자 GPU 기반 로컬 실험을 원한다면 Q4 GGUF 버전을 쓰되, 반드시 시스템 RAM 용량을 먼저 확인해야 합니다.

그래도 희소식은 있습니다. Mistral은 Speculative Decoding용 경량 모델(mistral-small-4-119b-2603-eagle, 약 300MB)을 별도로 공개했습니다. 이 Eagle 모델을 함께 사용하면 토큰 생성 속도가 추가로 향상됩니다. Apache 2.0 라이선스라 Hugging Face에서 무료로 내려받을 수 있고, vLLM·llama.cpp·SGLang·Transformers 등 주요 서빙 프레임워크에서 모두 지원합니다. (출처: Hugging Face, mistralai/Mistral-Small-4-119B-2603, 2026.03.16)

▲ 목차로 돌아가기

이 모델이 실제로 맞는 경우와 아닌 경우

수집한 수치들을 바탕으로 직접 판단 기준을 정리했습니다. 모든 상황에 맞는 모델은 없고, Mistral Small 4도 마찬가지입니다.

✅ 잘 맞는 상황

이미지+텍스트 혼합 문서 파싱을 대량으로 처리할 때
API 비용이 월 수백만 원 이상인 고볼륨 파이프라인
오픈소스 필수 조건이 있는 기업 환경
추론과 일반 응답을 같은 엔드포인트로 처리하고 싶을 때
EU 규정으로 중국/미국 모델 사용이 제한된 유럽 기업

❌ 맞지 않는 상황

순수 추론 성능이 최우선일 때 (Qwen 3.5 122B 권장)
컨텍스트가 256K를 자주 초과하는 작업
컴퓨터 사용·브라우저 자동화가 필요한 에이전트
소비자 GPU(RTX 4090 이하)로 로컬 실행을 원할 때
출력 토큰량이 많은 장문 생성 작업 (출력 $0.60 상대적으로 높음)

한 가지 덧붙이면, 벤치마크 결과만 보면 Mistral이 정체 내지 후퇴한 것처럼 보이지만, VentureBeat 인터뷰에서 Neurometric CEO Rob May가 지적한 것처럼 “기술적으로는 경쟁력이 있지만 시장 신뢰(mindshare)를 먼저 확보해야 한다”는 구조적 문제가 더 큰 과제입니다. (출처: VentureBeat, 2026.03.20) 좋은 모델을 만들었어도 선택지로 올라오지 못하면 의미가 없다는 것입니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. Mistral Small 4는 무료로 쓸 수 있나요?

모델 가중치 자체는 Apache 2.0 라이선스로 Hugging Face에서 무료로 내려받을 수 있습니다. 단, 직접 호스팅하려면 최소 H100 4장 수준의 인프라가 필요합니다. Mistral API는 유료이며 입력 $0.15/1M, 출력 $0.60/1M입니다. build.nvidia.com에서 프로토타이핑용 무료 데모도 제공됩니다.

Q2. reasoning_effort 파라미터는 어떻게 쓰나요?

API 요청 시 reasoning_effort="none" 또는 "high"를 파라미터로 넘기면 됩니다. “none”은 빠른 일반 응답 모드, “high”는 단계별 추론 모드입니다. 현재 공식 문서 기준으로 이 두 값만 지원하며, 추론 모드 사용 시 출력 토큰이 크게 늘어날 수 있어 비용을 미리 고려해야 합니다.

Q3. 기존 Mistral Small 3.2와 무엇이 다른가요?

Small 3.2는 24B 단일 모델로 이미지 입력을 지원했습니다. Small 4는 119B MoE 구조로 파라미터 규모가 크게 늘었고, 추론(Magistral)·코딩 에이전트(Devstral) 기능이 통합됐습니다. 단, instruct 모드 단독 성능은 Small 3.2 대비 큰 개선이 없다는 실사용 후기가 커뮤니티에서 다수 제기됩니다. 추론·멀티모달·코딩을 하나의 모델로 처리하고 싶을 때 선택하는 모델입니다.

Q4. Ollama나 llama.cpp로 로컬 실행이 되나요?

Mistral이 공식 지원 프레임워크로 llama.cpp를 포함했습니다. GGUF 포맷 파일도 커뮤니티(lmstudio-community)에서 빠르게 공개됐습니다. 다만 Q4 양자화 기준으로도 70GB 이상 RAM이 필요합니다. 일반적인 데스크톱 PC에서는 사실상 실행이 어렵고, 고용량 RAM을 갖춘 맥 스튜디오 등 특정 환경에서만 현실적입니다.

Q5. 한국어 성능은 어떤가요?

Mistral 모델군은 전통적으로 영어·프랑스어를 비롯한 유럽어에 강하고, 한국어 특화 학습 데이터가 충분하지 않다는 평가가 지속됩니다. 공식 발표에서 한국어 관련 벤치마크를 별도로 공개하지 않았습니다. 한국어 처리 품질이 핵심인 작업이라면 실제 사용 전 한국어 특화 평가를 별도로 진행하는 것이 안전합니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, Mistral Small 4는 기대치를 어디에 두느냐에 따라 완전히 다른 모델로 보입니다. “119B 오픈소스 멀티모달 추론 모델이 $0.15/1M”이라는 프레이밍으로 보면 상당히 매력적입니다. 반면 “6.5B 활성 파라미터 MoE인데 Qwen 3.5 35B-A3B보다 추론 성능이 낮다”는 프레임으로 보면 실망스럽습니다.

가장 유리한 시나리오는 고볼륨 이미지+텍스트 파이프라인이고, 가장 불리한 시나리오는 순수 추론 품질을 극한까지 짜내야 하는 경우입니다. 세 모델을 하나로 합쳤다는 통합의 가치는 분명히 있습니다. 다만 그 통합이 각 전문 모델의 최고 성능을 유지한다는 의미는 아닙니다.

결국 이 모델은 “더 싸게, 더 단순하게”를 원하는 팀을 위한 것입니다. 그 방향이 맞다면 API 테스트를 먼저 해보는 게 가장 정확한 답을 줄 겁니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격·스펙은 2026.03.31 기준이며 Mistral AI의 공식 정책에 따라 달라질 수 있습니다. 최신 정보는 반드시 공식 문서에서 직접 확인하세요.

Mistral Small 4, 싸다는 말이 전부가 아닙니다

“Small”이지만 119B — 이 숫자가 왜 헷갈리는가

세 모델을 하나로 합쳤다는 것의 진짜 의미

GPT-5.4 Mini 대비 6배 저렴한데 실제 비용 차이는?

벤치마크에서 놓치기 쉬운 숫자가 있습니다

로컬 배포: H100 4장이 ‘최소’ 요건인 이유

이 모델이 실제로 맞는 경우와 아닌 경우

자주 묻는 질문 (Q&A)

마치며

📌 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 싸다는 말이 전부가 아닙니다

Mistral Small 4, 싸다는 말이 전부가 아닙니다

“Small”이지만 119B — 이 숫자가 왜 헷갈리는가

세 모델을 하나로 합쳤다는 것의 진짜 의미

GPT-5.4 Mini 대비 6배 저렴한데 실제 비용 차이는?

벤치마크에서 놓치기 쉬운 숫자가 있습니다

로컬 배포: H100 4장이 ‘최소’ 요건인 이유

이 모델이 실제로 맞는 경우와 아닌 경우

자주 묻는 질문 (Q&A)

마치며

📌 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기