Mistral Small 4, 수치 4개로 직접 확인했습니다

magister

Published on

2026년 3월 21일

IT/AI

2026.03.16 공식 발표 기준
모델 버전: mistral-small-2603 (v26.03)

Mistral Small 4, 수치 4개로 직접 확인했습니다

발표 당일 공식 문서를 직접 뜯어봤습니다. “Small”이라는 이름 때문에 가볍게 볼 수 있는데, 실제 로컬 배포 조건을 보면 생각이 달라집니다. 동시에 API 가격과 출력 효율은 진짜 주목할 만한 수준이었습니다.

119B

전체 파라미터

6.5B

토큰당 실제 활성

$0.15

입력 1M 토큰 기준

256K

컨텍스트 윈도우

Mistral Small 4가 뭔지 30초로 정리

Mistral Small 4는 Mistral AI가 2026년 3월 16일에 공개한 최신 오픈소스 AI 모델입니다. (출처: Mistral AI 공식 발표, 2026.03.16) 기존에는 일반 대화용 모델, 추론 특화 모델(Magistral), 이미지 처리 모델(Pixtral), 코딩 에이전트 모델(Devstral)을 상황에 따라 따로 호출해야 했습니다. 이 네 가지를 하나의 모델로 통합한 게 Small 4입니다.

모델 ID는 mistral-small-2603이고, Apache 2.0 라이선스로 배포됩니다. 상업적 사용과 수정이 모두 가능하며 별도 사용료가 없습니다. NVIDIA GTC 2026 행사에서 발표와 동시에 공개됐고, 같은 날 NVIDIA와 Nemotron Coalition 파트너십도 함께 발표됐습니다.

💡 공식 발표문과 실제 배포 흐름을 같이 놓고 보니 — “통합”이라는 단어가 단순한 마케팅이 아니라 엔지니어링 구조 변화를 뜻하는 경우입니다. 모델 라우팅 로직을 따로 만들지 않아도 된다는 게 실제 개발 비용 차이로 연결됩니다.

솔직히 처음엔 “또 통합 모델이네” 싶었는데, 실제 스펙을 보니 설계 방식이 달랐습니다. 핵심은 파라미터 수가 아니라 아키텍처에 있었습니다.

▲ 목차로 돌아가기

119B인데 왜 6B처럼 빠른가 — MoE 구조

Mistral Small 4의 전체 파라미터는 119B입니다. 그런데 토큰 하나를 처리할 때 실제로 활성화되는 파라미터는 6.5B에 불과합니다. (출처: Hugging Face 공식 모델 카드, 2026.03.16) 이게 Mixture-of-Experts(MoE) 아키텍처의 핵심입니다.

구조를 보면 128개의 전문가(expert) 서브네트워크가 있고, 각 토큰마다 그 중 딱 4개만 선택돼서 작동합니다. 전체 건물에 전문의가 128명 있는데 환자 한 명당 4명만 진료하는 방식이라고 보면 됩니다. 병원 전체 규모(119B)는 크지만 실제 연산 비용은 작은 병원(6.5B) 수준입니다.

📊 Small 4 vs Small 3 — 공식 비교 수치

항목	Small 3	Small 4
완료 시간(지연 최적화)	기준값	40% 단축
초당 처리 요청 수	기준값	3배
컨텍스트 윈도우	약 32K	256K
멀티모달 지원	없음	텍스트+이미지

출처: Mistral AI 공식 발표문, 2026.03.16 / Hugging Face 모델 카드, 2026.03.16

처리 속도가 3배 빨라졌다는 건 동일한 GPU 비용으로 3배 더 많은 사용자를 처리할 수 있다는 뜻입니다. 상업용 서비스를 운영할 때 이 차이는 인프라 비용에 직접 영향을 줍니다.

▲ 목차로 돌아가기

reasoning_effort 파라미터, 이게 핵심입니다

Small 4에서 가장 눈에 띈 기능은 reasoning_effort 파라미터입니다. API 호출 시 요청 단위로 추론 깊이를 조절할 수 있습니다. (출처: Mistral AI 공식 문서, v26.03)

reasoning_effort 옵션 비교

"none"

빠른 응답. Small 3.2와 동일한 속도·스타일. 일상 대화·FAQ에 적합.

"high"

단계별 논리 추론. 이전 Magistral 모델 수준의 깊이. 수학·코딩·복잡한 분석에 적합.

이게 왜 중요하냐면, 기존에는 빠른 응답이 필요한 쿼리는 Small 계열 모델로, 복잡한 추론이 필요한 쿼리는 Magistral 모델로 각각 라우팅하는 로직을 코드로 짜야 했습니다. 규모가 커지면 이 라우팅 코드만 수백 줄이 됩니다.

💡 공식 문서와 실제 프로덕션 패턴을 비교해 보면 — 파라미터 하나로 라우팅 레이어를 대체할 수 있다면, 서빙 스택에서 모델을 하나 줄이는 게 아니라 유지보수 포인트 자체를 줄이는 얘기입니다.

reasoning_effort="none"은 온도(temperature) 0.0~0.7 사이를 권장하고, "high"는 0.7을 권장합니다. 공식 문서에 딱 이렇게 나옵니다. 복잡한 과제에서 온도를 너무 낮게 설정하면 추론이 오히려 경직될 수 있어 주의가 필요합니다.

▲ 목차로 돌아가기

벤치마크 수치보다 더 중요한 지표가 있습니다

공식 발표에서 Mistral이 강조한 건 점수가 아니라 출력 길이 대비 성능이었습니다. AA LCR 벤치마크에서 Small 4는 0.72 점수를 1,600자 출력으로 달성했습니다. (출처: Mistral AI 공식 발표문, 2026.03.16) 반면 유사한 점수를 내는 Qwen 계열 모델은 5,800~6,100자를 씁니다.

Qwen 대비 출력 길이가 3.5~4배 짧다는 건, 같은 작업을 처리할 때 API 비용이 3.5~4배 낮다는 뜻입니다. 출력 토큰 단가가 $0.60/1M이니, 1백만 번 쿼리 기준으로 Qwen 대비 출력 비용만 약 3배 이상 절감할 수 있습니다.

📊 AA LCR 벤치마크 — 출력 효율 비교

모델	점수 (AA LCR)	평균 출력 길이
Mistral Small 4	0.72	1,600자
Qwen 계열 (유사 성능)	~0.72	5,800~6,100자
GPT-OSS 120B	≤ 0.72	—

출처: Mistral AI 공식 발표문 및 Hugging Face 모델 카드, 2026.03.16. GPT-OSS 120B 대비 LiveCodeBench에서는 출력 20% 적음.

코딩 벤치마크인 LiveCodeBench에서도 Small 4는 GPT-OSS 120B보다 출력이 20% 짧으면서 성능은 앞섰습니다. 짧은 코드 출력은 단순히 비용 문제가 아니라, 자동화 파이프라인에서 파싱 오류와 버그 숨김 가능성을 낮추는 실용적 이점으로 직결됩니다.

▲ 목차로 돌아가기

“Small”이라고 로컬에서 쉽게 돌리면 안 되는 이유

이름이 “Small”이라 로컬에서 가볍게 돌릴 수 있다고 생각하면 크게 당할 수 있습니다. 공식 발표에서 밝힌 최소 배포 환경을 보면 이야기가 완전히 달라집니다.

⚠️ 로컬 배포 최소 사양 (공식 발표 기준)

NVIDIA HGX H100 × 4대
또는 NVIDIA HGX H200 × 2대
또는 NVIDIA DGX B200 × 1대

출처: Mistral AI 공식 발표문, 2026.03.16

왜 이럴까요? MoE 구조상 토큰당 6.5B만 연산하지만, 모델 전체 119B 파라미터가 VRAM에 올라가 있어야 합니다. BF16 기준으로 약 238GB의 VRAM이 필요합니다. 추론 연산은 가볍지만, 모델을 메모리에 올리는 비용은 절감되지 않습니다. 병원 비유로 돌아가면 — 진료는 몇 명만 하지만 건물 임대료는 전체 규모로 냅니다.

💡 공식 하드웨어 권장 사양을 실제 비용 관점에서 보면 — H100 한 대 임대 비용이 시간당 약 $2~3인 점을 감안하면, 최소 4대 기준으로 월 운영 비용만 수천 달러입니다. 소규모 팀이라면 API 방식이 현실적입니다.

현실적인 대안은 세 가지입니다. Mistral API(api.mistral.ai)로 종량제 사용, NVIDIA Build에서 무료 프로토타이핑, 또는 NVIDIA NIM 컨테이너로 GPU 인프라가 있는 팀에서 배포하는 방식입니다. Hugging Face에는 llama.cpp와 LM Studio용 GGUF 양자화 버전도 올라와 있지만, 이 경우 성능 저하가 있을 수 있고 공식 권장 방식은 아닙니다.

▲ 목차로 돌아가기

API 가격과 실제 비용 계산

Mistral Small 4의 API 가격은 입력 토큰 $0.15/1M, 출력 토큰 $0.60/1M입니다. (출처: Mistral AI 공식 문서 v26.03 / OpenRouter 가격 페이지) 컨텍스트 윈도우는 262,144 토큰입니다.

💰 실제 비용 시뮬레이션

예를 들어 입력 500 토큰 + 출력 200 토큰짜리 쿼리를 하루 10,000번 호출한다고 가정하면:

입력: 500 × 10,000 = 5M 토큰 → $0.15 × 5 = $0.75
출력: 200 × 10,000 = 2M 토큰 → $0.60 × 2 = $1.20
하루 합계: 약 $1.95 (약 2,800원)

※ 환율 약 1,440원/달러 기준 추정. 실제 요금은 Mistral AI 공식 페이지에서 확인 필요.

다른 모델과 비교하면 맥락이 더 잘 잡힙니다. Claude Sonnet 4.5 기준 입력 $3/1M, 출력 $15/1M과 비교하면 Small 4는 입력 20배, 출력 25배 저렴합니다. 물론 성능이 동일하지는 않지만, 간단한 분류·요약·일상 대화처럼 최고 성능이 불필요한 작업에서는 비용 격차가 실질적인 선택 기준이 됩니다.

📊 주요 모델 입력 가격 비교 (2026년 3월 기준)

모델	입력 (/1M)	출력 (/1M)	오픈소스
Mistral Small 4	$0.15	$0.60	✅ Apache 2.0
Gemini 2.5 Flash	$0.30	—	❌
Claude Sonnet 4.5	$3.00	$15.00	❌
Llama 4 Scout	$0.11	—	✅

출처: GitHub/salttechno LLM-Model-Comparison-2026, OpenRouter 가격 페이지. Gemini·Claude 가격은 공개 API 기준 추정치 포함.

Le Chat(미스트랄의 챗봇 서비스)에서는 Small 4가 기본 모델로 탑재됩니다. 개인 사용자 입장에서는 별도 API 없이 Le Chat 웹 인터페이스에서 바로 써볼 수 있다는 점도 실용적입니다.

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q1. Mistral Small 4는 ChatGPT나 Claude를 완전히 대체할 수 있나요?

모든 작업에서는 아닙니다. Mistral AI 스스로 “프론티어 모델 대비 80~90% 성능을 20~30% 비용으로”라는 포지셔닝을 공식 자료에서 제시합니다. 고도의 창의성, 복잡한 다단계 전략 수립, 최고 수준의 코드 리뷰가 필요한 작업에서는 GPT-4o나 Claude Opus 계열이 여전히 앞설 수 있습니다. 반면 문서 분석, 간단한 코딩 자동화, 데이터 추출처럼 반복 처리가 많은 작업에서는 Small 4가 비용 대비 성능이 더 좋은 선택일 수 있습니다.

Q2. 한국어 성능은 어떤가요?

공식 모델 카드에서 지원 언어 목록에 Korean이 명시돼 있습니다. (출처: Hugging Face 모델 카드, 2026.03.16) 다만 한국어를 포함한 저빈도 언어에 대한 세부 벤치마크는 공식 발표에서 별도로 공개되지 않았습니다. 프랑스어·영어 중심으로 개발된 모델인 만큼, 한국어 복잡 추론 작업에서의 실제 품질은 직접 테스트 후 판단하는 게 안전합니다.

Q3. 기존 Mistral API를 쓰던 사람은 어떻게 전환하나요?

모델 ID를 mistral-small-latest에서 mistral-small-2603으로 변경하면 됩니다. API 인터페이스 구조는 기존과 동일하고 OpenAI 호환 형식을 지원합니다. 새로 추가된 reasoning_effort 파라미터는 선택 사항이므로 기존 코드를 그대로 두고 필요한 경우만 추가하면 됩니다.

Q4. vLLM 이외의 로컬 실행 방법은 없나요?

llama.cpp와 LM Studio용 GGUF 버전이 Hugging Face에 올라와 있습니다. (Unsloth 팀이 변환 배포 중) 다만 Transformers를 통한 직접 실행은 현재 FP8 지원 이슈로 BF16 역양자화 과정이 필요하며, Mistral AI 공식 권장 방식은 vLLM입니다. SGLang 지원은 2026년 3월 기준 작업 중이라 공식 문서에서 “WIP”으로 표기돼 있습니다.

Q5. 이미지 처리 성능은 어느 수준인가요?

텍스트와 이미지를 함께 입력받아 텍스트로 출력하는 멀티모달 구조입니다. 문서 파싱·표 이해·다이어그램 분석·시각 질의응답이 주요 사용 사례로 공식 문서에 명시돼 있습니다. 독립적인 이미지 생성 기능은 없으며, 이미지 출력도 지원하지 않습니다. GPQA Diamond 벤치마크에서 76.9%를 기록했지만 이미지 관련 별도 비전 벤치마크 결과는 아직 발표 시점(2026.03.21)에서 공개되지 않았습니다.

▲ 목차로 돌아가기

마치며 — 총평

Mistral Small 4를 발표 당일부터 공식 문서와 벤치마크 수치를 직접 뜯어보고 난 총평입니다.

이 모델에서 진짜 흥미로웠던 건 “119B인데 6.5B처럼 작동한다”는 MoE 구조의 실용적 의미와, reasoning_effort 파라미터 하나로 모델 라우팅 레이어를 없앨 수 있다는 엔지니어링 관점이었습니다. 이미 AI 서비스를 프로덕션에서 운영 중인 팀이라면 모델 교체가 아니라 아키텍처 단순화 관점에서 평가해볼 만합니다.

반면 “Small”이라는 이름과 달리 로컬 배포 문턱은 높습니다. GPU 인프라 없이 시작하려면 API 방식이 현실적이고, NVIDIA Build에서 무료로 프로토타이핑부터 시작하는 게 가장 접근이 쉽습니다.

$0.15/1M이라는 입력 가격과 출력 효율(Qwen 대비 3.5~4배 짧음)을 놓고 보면, 대량 처리 작업에서의 비용 경쟁력은 솔직히 기대 이상이었습니다. 다만 한국어 복잡 추론에서의 실제 품질은 직접 테스트 없이는 섣불리 판단하기 어렵습니다. 이 부분은 별도로 확인해볼 예정입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

※ 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치와 스펙은 2026년 3월 16일~21일 공식 발표 자료 기준이며, 실제 서비스 이용 전 Mistral AI 공식 사이트에서 최신 정보를 직접 확인하시기 바랍니다.

AI API 가격, 오픈소스 LLM, Mistral AI 2026, Mistral Small 4, MoE 모델

Mistral Small 4, 수치 4개로 직접 확인했습니다

Mistral Small 4, 수치 4개로 직접 확인했습니다

Mistral Small 4가 뭔지 30초로 정리

119B인데 왜 6B처럼 빠른가 — MoE 구조

reasoning_effort 파라미터, 이게 핵심입니다

벤치마크 수치보다 더 중요한 지표가 있습니다

“Small”이라고 로컬에서 쉽게 돌리면 안 되는 이유

API 가격과 실제 비용 계산

Q&A — 자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 수치 4개로 직접 확인했습니다

Mistral Small 4, 수치 4개로 직접 확인했습니다

Mistral Small 4가 뭔지 30초로 정리

119B인데 왜 6B처럼 빠른가 — MoE 구조

reasoning_effort 파라미터, 이게 핵심입니다

벤치마크 수치보다 더 중요한 지표가 있습니다

“Small”이라고 로컬에서 쉽게 돌리면 안 되는 이유

API 가격과 실제 비용 계산

Q&A — 자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기