2026.03.16 출시 기준
mistral-small-2603 기준
Apache 2.0

Mistral Small 4, 싸다고요?
이 구조 먼저 보세요

결론부터 말씀드리면, Mistral Small 4는 입력 $0.15/1M 토큰으로 멀티모달과 추론을 동시에 쓸 수 있는 현재 유일한 모델입니다. 그런데 reasoning_effort 파라미터를 잘못 설정하면, “소형 모델 가격”인데 “대형 모델 토큰 소비”가 나오는 상황이 생깁니다. 이름은 Small인데 실제로는 119B 파라미터짜리 구조인 이유까지, 공식 발표문과 수치를 직접 대조해봤습니다.

$0.15

입력 /1M 토큰

119B

총 파라미터

256K

컨텍스트 윈도우

처리량 향상 (Small 3 대비)

“Small”인데 왜 119B인가 — MoE 구조의 실체

Mistral Small 4를 처음 보면 이름에서 “소형 모델”을 기대합니다. 그런데 실제 총 파라미터는 119B입니다. GPT-4 초기 버전보다도 큰 숫자죠. 그런데 왜 “Small”이냐고요? 토큰 하나가 처리될 때 실제로 활성화되는 파라미터는 6.5B에 불과하기 때문입니다.

이게 Mixture of Experts(MoE) 구조입니다. 128개의 전문가 네트워크가 내부에 있고, 각 토큰마다 그 중 4개만 깨어납니다. 코딩 관련 토큰이 들어오면 코딩 전문가 4개가 활성화되고, 한국어 토큰이 들어오면 언어 전문가 4개가 활성화됩니다. 나머지 124개는 아무것도 안 합니다.

💡 공식 발표문과 HuggingFace 모델 카드를 대조해보니 이런 수치가 나왔습니다

총 119B 파라미터 중 토큰당 활성 파라미터는 6.5B(임베딩·출력 레이어 포함 시 8B)입니다. 20:1 비율의 비활성 대 활성 구조입니다. 추론 비용은 실질적으로 6.5B 모델 수준이지만, 실력은 119B 지식 기반에서 나옵니다.
(출처: HuggingFace mistralai/Mistral-Small-4-119B-2603-NVFP4, 2026.03.16)

결과적으로 이름은 Small이지만, 성능 풀은 대형 모델입니다. API 비용은 소형 모델 수준이고요. 이게 Mistral Small 4가 $0.15라는 가격에 멀티모달·추론·코딩을 한 번에 제공할 수 있는 구조적 이유입니다.

▲ 목차로 돌아가기

세 모델을 하나로 — Magistral·Pixtral·Devstral 통합

Mistral은 그동안 목적에 따라 다른 모델을 써야 했습니다. 추론이 필요하면 Magistral, 이미지를 봐야 하면 Pixtral, 코드 에이전트를 돌리려면 Devstral을 골라야 했죠. 모델 세 개를 각각 관리하고 라우팅 로직을 짜야 했습니다.

Mistral Small 4는 이 세 가지를 하나의 가중치로 묶었습니다. Mistral 공식 발표문에는 이렇게 나와 있습니다. “Mistral Small 4 is the first Mistral model to unify the capabilities of our flagship models, Magistral for reasoning, Pixtral for multimodal, and Devstral for agentic coding, into a single, versatile model.” 별도 모델 운영 비용이 사라집니다.

이전 Mistral 구성	담당 역할	Small 4 흡수 여부
Magistral	단계별 추론, 수학, 분석	✅ 포함
Pixtral	이미지 이해, 문서 파싱, OCR	✅ 포함
Devstral	코드 에이전트, 코드베이스 탐색	✅ 포함
Mistral Small (인스트럭트)	일반 채팅, 빠른 응답	✅ 포함

(출처: Mistral AI 공식 발표, mistral.ai/news/mistral-small-4, 2026.03.16)

실제로 써보면 장점이 분명합니다. 같은 API 엔드포인트에서 “이 이미지 속 계약서에서 위약금 조항 추출해줘”라고 하면 Pixtral 역할을 하고, “이 추출한 조항의 법적 타당성을 단계별로 분석해줘”라고 하면 Magistral 역할로 전환됩니다. API ID는 하나(`mistral-small-2603`)입니다.

▲ 목차로 돌아가기

reasoning_effort가 비용을 가르는 기준

Mistral Small 4에서 가장 실무적으로 중요한 부분입니다. 요청마다 reasoning_effort 파라미터를 설정할 수 있습니다. "none"이면 빠른 채팅 모드, "high"이면 단계별 추론 모드입니다.

이게 왜 중요하냐면, 추론 모드에서는 출력 토큰이 대폭 늘어나기 때문입니다. Mistral 공식 자료에 따르면 인스트럭트 모드(`reasoning_effort=”none”`)에서 평균 출력이 약 2.1K 자였는데, 추론 모드(`reasoning_effort=”high”`)에서는 18.7K 자로 늘어납니다. 약 9배 차이입니다. 출력 토큰은 $0.60/1M이니, 같은 작업에 9배 비용이 나올 수도 있습니다.

⚙️ reasoning_effort 선택 기준 — 공식 권장사항 기반

reasoning_effort=”none”

분류, 추출, 단순 Q&A, 고객응대 챗봇, 문서 요약

reasoning_effort=”high”

수학 풀이, 복잡한 분석, 다단계 추론, 코드 디버깅

(출처: HuggingFace Mistral-Small-4-119B 모델 카드 Recommended Settings, 2026.03.16)

OpenAI도 비슷한 개념의 effort 파라미터가 있습니다. 차이는 가격입니다. OpenAI의 경우 reasoning이 가능한 모델의 입력 가격은 $2.50/1M 이상입니다. Mistral Small 4는 $0.15에서 같은 파라미터를 씁니다. 단순 작업엔 꼭 `”none”`을 쓰세요.

▲ 목차로 돌아가기

GPT-5.4 Mini 대비 6배 차이, 숫자로 확인했습니다

Mistral Small 4가 싸다는 말을 그냥 믿으면 안 됩니다. 직접 따져봐야 합니다. 같은 워크로드에 두 모델을 돌렸을 때 실제로 얼마나 차이가 나는지 공식 토큰 가격 기준으로 계산해봤습니다.

📊 모델 가격 비교표 (2026.03.23 공식 가격 기준)

모델	입력 /1M	출력 /1M	컨텍스트	멀티모달
Mistral Small 4	$0.15	$0.60	256K	✅
GPT-5.4 Nano	$0.20	$1.25	400K	✅
Gemini 3.1 Flash-Lite	$0.25	$1.50	1M	✅
GPT-5.4 Mini	$0.75	$4.50	400K	✅
Claude Haiku 4.5	$1.00	$5.00	200K	✅

(출처: tokencost.app, Mistral 공식 docs, 2026.03.23 기준)

🧮 실제 워크로드 계산식 (직접 따라해볼 수 있습니다)

시나리오: 고객지원 채팅봇 — 하루 5천 건, 입력 2K 토큰 + 출력 500 토큰

월간 입력: 5,000 × 2,000 × 30 = 300M 토큰

월간 출력: 5,000 × 500 × 30 = 75M 토큰

Mistral Small 4: (300 × $0.15) + (75 × $0.60) = $45 + $45 = 월 $90

GPT-5.4 Mini: (300 × $0.75) + (75 × $4.50) = $225 + $337.5 = 월 $562.5

월 $90 vs $562.5, 약 6.2배 차이입니다. 연간으로 환산하면 $1,080 vs $6,750입니다. 같은 작업을 하는데 연간 $5,670을 절감하는 겁니다. 이 차이는 하루 처리량이 많을수록 더 벌어집니다.

▲ 목차로 돌아가기

출력이 짧을수록 더 좋다 — 2.1K vs 14.2K의 함의

보통 AI 모델은 답을 길게 쓸수록 “잘하는 것처럼” 보입니다. 그런데 VentureBeat가 Mistral의 자체 벤치마크 자료를 인용해 보도한 내용은 다릅니다. 인스트럭트 모드(`reasoning_effort=”none”`)에서 Mistral Small 4의 평균 출력은 2.1K 자입니다. Claude Haiku 4.5는 같은 작업에 14.2K 자, GPT-OSS 120B는 23.6K 자를 뱉어냈습니다.

💡 Mistral 공식 발표문과 VentureBeat 분석을 같이 놓고 보니 이런 차이가 보였습니다

벤치마크 점수가 비슷한데 출력 길이가 1/7 수준이라는 건, 같은 결론에 도달하면서 토큰을 덜 쓴다는 뜻입니다. 출력 토큰 비용이 $0.60/1M인 모델에서 출력이 7배 짧으면, 실비용도 7배 아낍니다. 점수만 보고 모델을 고르면 이 부분을 놓칩니다.

모델 (인스트럭트 모드)	평균 출력 길이	LCR 점수
Mistral Small 4	2.1K 자	0.72
Claude Haiku 4.5	14.2K 자	~0.70
GPT-OSS 120B	23.6K 자	< 0.72

(출처: Mistral AI 공식 발표 벤치마크, VentureBeat 보도 2026.03.20 — LCR = AA LCR 벤치마크)

추론 모드(`reasoning_effort=”high”`)에서는 출력이 18.7K 자로 늘어납니다. 이게 당연한 결과입니다. 추론 과정을 텍스트로 출력하기 때문입니다. 즉, 단순 작업은 `”none”`을 써야 이 짧은 출력 장점을 그대로 누릴 수 있습니다.

▲ 목차로 돌아가기

자체 호스팅이 “공짜”가 아닌 이유

Apache 2.0 라이선스라는 말을 보고 “그럼 공짜로 쓸 수 있겠네”라고 생각하면 큰코다칩니다. 라이선스 비용이 없는 것과 운영 비용이 없는 것은 다릅니다.

Mistral 공식 발표문에는 자체 호스팅 최소 요구 사양이 나와 있습니다. 최소 구성이 4x NVIDIA HGX H100입니다. 권장 구성은 4x HGX H100 또는 4x HGX H200, 또는 2x DGX B200입니다. H100 하나가 약 $30,000~$40,000 수준이고, H200은 그보다 비쌉니다. 서버 임대 기준으로도 H100 4장 구성은 시간당 $20~$30가 넘습니다.

⚠️ 자체 호스팅 vs API 사용 손익분기점 추산

H100 4장 클라우드 임대: 약 시간당 $24(추정, Lambda Labs 기준) → 월 $17,280

API 사용 $17,280이면 입력 115,200M 토큰 처리 가능 ($0.15 기준)

※ GPU 임대 비용은 공급사·계약 조건에 따라 달라집니다. 위 수치는 추정값입니다.

실제로는 데이터 프라이버시가 필요한 엔터프라이즈, 또는 고정적으로 대량 트래픽을 처리하는 경우에만 자체 호스팅이 경제적입니다. 테스트나 중소규모 운영은 API가 훨씬 합리적입니다. 그리고 build.nvidia.com에서는 NVFP4 양자화 버전을 크레딧 없이 무료로 프로토타이핑할 수도 있습니다.

▲ 목차로 돌아가기

안 되는 것도 있습니다 — 256K 한계와 컴퓨터 사용 부재

막상 쓰다 보면 한계가 보입니다. 가장 먼저 걸리는 건 컨텍스트 윈도우입니다. Mistral Small 4는 256K 토큰입니다. GPT-5.4 Mini는 400K, Gemini 계열은 최대 1M을 지원합니다. 아주 긴 문서(법률 계약서 전문, 대용량 코드베이스) 전체를 한 번에 넣는 작업은 256K에서 잘릴 수 있습니다.

두 번째는 컴퓨터 사용(Computer Use) 기능입니다. GPT-5.4 Mini나 Claude 계열이 지원하는 브라우저 조작·화면 캡처·클릭 자동화는 Mistral Small 4에 없습니다. 브라우저 에이전트, 웹 스크래핑 자동화, UI 테스트 자동화처럼 실제 화면을 직접 다루는 작업에서는 선택지가 아닙니다.

❌ 이 경우엔 다른 모델이 낫습니다

256K 초과 단일 문서 처리
브라우저 자동화·컴퓨터 사용
최고 수준 추론 벤치마크 필요
출력 가격 $0.42 이하 필요 시

✅ 이 경우엔 Mistral Small 4가 맞습니다

대용량 문서 파싱·OCR (256K 이내)
코드 에이전트·코드베이스 분석
멀티모달 + 추론 동시 필요
오픈소스 자체 호스팅 필수
비용 민감한 고볼륨 API 연동

솔직히 말하면, 이 모델이 모든 상황의 정답은 아닙니다. 하지만 멀티모달·추론·코딩을 $0.15/1M에 묶어서 쓸 수 있는 모델은 현재 시장에 없습니다. 그 교집합 안에서는 현재 가장 강력한 선택지입니다.

▲ 목차로 돌아가기

Q&A

Q1. Mistral Small 4는 한국어를 지원하나요?

HuggingFace 모델 카드에 한국어(Korean)가 지원 언어 목록에 명시되어 있습니다. 영어·프랑스어·스페인어·독일어·이탈리아어·포르투갈어·중국어·일본어·한국어·아랍어 등 수십 개 언어를 지원합니다. 단, 한국어 전용 벤치마크는 공식 발표문에 없습니다.
(출처: HuggingFace Mistral-Small-4-119B-2603-NVFP4, 2026.03.16)

Q2. reasoning_effort 파라미터는 ChatGPT 웹에서도 쓸 수 있나요?

아닙니다. reasoning_effort는 Mistral API 호출 시 파라미터로 넘기는 기능입니다. Le Chat 웹 인터페이스에서는 별도 UI가 있을 수 있지만, 파라미터 단위 제어는 API 사용자 대상입니다. 개발자가 요청마다 동적으로 설정하는 구조입니다.

Q3. Mistral Small 3.2와 비교해서 무엇이 가장 크게 달라졌나요?

컨텍스트 윈도우가 128K → 256K로 2배 늘었고, 추론 모드와 멀티모달(이미지 입력)이 추가됐습니다. 처리 속도는 같은 인프라 기준 엔드투엔드 완료 시간이 40% 단축됐고, 처리량은 초당 요청 수가 3배 늘었습니다. 사실상 별개 모델로 봐야 합니다.
(출처: Mistral AI 공식 발표, 2026.03.16)

Q4. Ollama로 로컬 실행이 가능한가요?

BF16 기준 전체 모델이 242GB입니다. 현재 Ollama에서 직접 실행하려면 최소 H100 4장이 필요하고, 2026년 3월 기준 NVFP4 양자화 버전에 대한 Ollama 공식 지원은 진행 중(WIP)입니다. 실질적으로는 vLLM + Docker 이미지(`mistralllm/vllm-ms4:latest`)가 현재 권장 방법입니다.

Q5. Qwen 3.5 122B와 비교하면 어떤가요?

VentureBeat 보도에 따르면 LiveCodeBench에서 Qwen 3.5 122B와 Qwen 3-next 80B 모두 Mistral Small 4를 코딩 성능에서 앞섰습니다. 대신 Mistral Small 4는 출력 길이가 훨씬 짧아 토큰 비용이 낮고, Apache 2.0 라이선스로 상업적 자체 호스팅이 자유롭습니다. 순수 코딩 성능이 최우선이면 Qwen이 앞서고, 비용·멀티모달·라이선스 유연성이 기준이면 Mistral Small 4가 낫습니다.
(출처: VentureBeat, 2026.03.20)

▲ 목차로 돌아가기

마치며

Mistral Small 4를 한 문장으로 정리하면, 모델 스택 단순화가 목적이라면 지금 시장에서 가장 현실적인 선택지입니다. 세 개 모델을 따로 관리하던 걸 하나로 줄이면서, 가격까지 GPT-5.4 Mini 대비 6배 아낄 수 있습니다.

개인적으로는 `reasoning_effort` 파라미터를 요청 단위로 제어할 수 있다는 게 가장 실용적이었습니다. 분류 작업은 `”none”`으로 빠르게 처리하고, 복잡한 분석만 `”high”`로 돌리면 비용을 상당히 아낄 수 있습니다. 모델 이름만 보고 “소형 모델이니까 싸겠지”라고 생각했다가 reasoning 모드 출력 토큰에서 예상 밖 비용이 나오는 상황은 미리 계산하고 들어가면 충분히 막을 수 있습니다.

256K 컨텍스트와 컴퓨터 사용 미지원은 분명한 한계입니다. 이 두 조건에 걸리지 않는 워크로드라면, 지금 바로 테스트해볼 가치가 있습니다.

본 포스팅 참고 자료

Mistral AI 공식 발표 — mistral.ai/news/mistral-small-4 (2026.03.16)
HuggingFace Mistral-Small-4-119B-2603-NVFP4 모델 카드 — huggingface.co/mistralai/Mistral-Small-4-119B-2603-NVFP4 (2026.03.16)
VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding — venturebeat.com (2026.03.20)
TokenCost.app — Mistral Small 4 Pricing & Benchmarks — tokencost.app (2026.03.23)
Simon Willison’s Weblog — Introducing Mistral Small 4 — simonwillison.net (2026.03.16)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 정보는 2026년 3월 23일 기준이며, 실제 과금 시 Mistral 공식 docs를 반드시 재확인하세요.

Mistral Small 4, 싸다고요? 이 구조 먼저 보세요

Mistral Small 4, 싸다고요?
이 구조 먼저 보세요

“Small”인데 왜 119B인가 — MoE 구조의 실체

세 모델을 하나로 — Magistral·Pixtral·Devstral 통합

reasoning_effort가 비용을 가르는 기준

GPT-5.4 Mini 대비 6배 차이, 숫자로 확인했습니다

출력이 짧을수록 더 좋다 — 2.1K vs 14.2K의 함의

자체 호스팅이 “공짜”가 아닌 이유

안 되는 것도 있습니다 — 256K 한계와 컴퓨터 사용 부재

Q&A

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 싸다고요? 이 구조 먼저 보세요

Mistral Small 4, 싸다고요?이 구조 먼저 보세요

“Small”인데 왜 119B인가 — MoE 구조의 실체

세 모델을 하나로 — Magistral·Pixtral·Devstral 통합

reasoning_effort가 비용을 가르는 기준

GPT-5.4 Mini 대비 6배 차이, 숫자로 확인했습니다

출력이 짧을수록 더 좋다 — 2.1K vs 14.2K의 함의

자체 호스팅이 “공짜”가 아닌 이유

안 되는 것도 있습니다 — 256K 한계와 컴퓨터 사용 부재

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Mistral Small 4, 싸다고요?
이 구조 먼저 보세요