Mistral Small 4, “Small”인데 H100이 4개 필요합니다

Published on

2026년 3월 20일

2026.03.16 출시 기준
Mistral Small 4 (mistral-small-2603)
Apache 2.0

Mistral Small 4, “Small”인데
H100이 4개 필요합니다

2026년 3월 16일, Mistral AI가 새 모델을 공개했습니다. 이름은 Small 4인데, 공식 문서에 적힌 최소 자체 호스팅 사양은 H100 4장입니다. “Small”이라는 이름이 무색하게 느껴지는 순간입니다. 그런데 막상 API 요금을 보면 이야기가 달라집니다. 입력 토큰 기준 백만 개당 $0.15 — GPT-4o mini($0.15)와 동일 수준이면서 추론 기능까지 탑재돼 있습니다.

119B

전체 파라미터

토큰당 활성 파라미터

$0.15

입력 / 1M tokens

256k

컨텍스트 윈도우

119B인데 실제로 쓰이는 건 6B입니다

Mistral Small 4의 스펙표를 처음 보면 “119B 파라미터짜리 모델을 왜 Small이라고 부르나”라는 질문이 먼저 나옵니다. 실제로 Reddit에서도 같은 반응이 쏟아졌고, 한 댓글에는 그냥 “어떻게 이게 Small이냐”고 적혀 있었습니다.

구조를 들여다보면 얘기가 달라집니다. Mistral Small 4는 MoE(Mixture of Experts) 아키텍처로 설계됐습니다. 전문가 모듈이 128개 있고, 토큰 하나를 처리할 때 실제로 활성화되는 모듈은 4개뿐입니다. 이 결과 토큰당 활성 파라미터는 6B(임베딩·출력 레이어 포함 시 8B)입니다. (출처: Mistral AI 공식 발표, 2026.03.16)

💡 공식 발표문과 아키텍처 명세를 함께 놓고 보면 이런 차이가 보였습니다 — 119B라는 숫자는 모델이 보유한 지식의 총량을 뜻하고, 6B는 그 지식에서 실제로 꺼내 쓰는 양입니다. 인터넷 브라우저에 캐시된 데이터가 1TB여도 한 번에 로딩하는 탭은 몇 개 없는 것과 비슷한 원리입니다. API 응답 속도와 단가가 dense 120B 모델이 아닌 작은 모델 수준에 가까운 이유가 여기 있습니다.

반대로 말하면, 119B 전체를 메모리에 올려 두긴 해야 합니다. 호출당 연산량은 작지만 모델 로딩에 필요한 물리 메모리는 줄지 않습니다. 이 부분이 자체 호스팅의 핵심 걸림돌인데, 이 내용은 섹션 4에서 자세히 다루겠습니다.

▲ 목차로 돌아가기

API 요금, 숫자만 보면 이렇습니다

Mistral Small 4의 공식 API 요금은 입력 토큰 1백만 개당 $0.15, 출력 토큰 1백만 개당 $0.60입니다. (출처: OpenRouter — mistralai/mistral-small-2603, 2026.03.16 기준 / Artificial Analysis 벤치마크 데이터)

모델	입력 ($/1M)	출력 ($/1M)	추론 기능	컨텍스트
Mistral Small 4	$0.15	$0.60	✅ 포함	256k
Mistral Small 3.1	$0.20	$0.60	❌	128k
Mistral Large 3	$0.50	$1.50	확인 필요	128k
GPT-4.1	$2.00	$8.00	확인 필요	1M

※ GPT-4.1 요금은 MarginDash AI 가격 비교 자료 기준 (2026.02). Mistral 계열 요금은 OpenRouter / Artificial Analysis 기준 (2026.03.16).

직접 계산해 보면 이렇습니다. 1만 토큰 입력 + 500토큰 출력으로 구성된 요청을 하루 1,000회 보낸다고 가정할 때, Mistral Small 4 기준 월 비용은 약 $4.95입니다. $$\text{월 비용} = (10{,}000 \times 0.00000015 + 500 \times 0.0000006) \times 1{,}000 \times 30 = \$4.95$$ 여기서 주목할 점은 이 요금 안에 추론(reasoning) 기능이 포함돼 있다는 것입니다. 이전 세대라면 추론 전용 모델(Magistral)을 별도로 호출해야 했고, 그쪽 요금은 이보다 높았습니다.

▲ 목차로 돌아가기

reasoning_effort 파라미터, 이게 핵심입니다

Mistral Small 4에서 가장 실용적인 변화는 모델 파라미터 수가 아니라 reasoning_effort라는 API 파라미터입니다. 이전까지 개발팀이 “빠른 응답”과 “심층 추론” 사이에서 선택하려면 모델 자체를 두 개 유지해야 했습니다.

💡 발표 자료와 실제 API 명세를 교차해서 보니 이런 패턴이 보였습니다 — 같은 API 엔드포인트에서 파라미터 하나로 동작을 전환할 수 있다는 건, 추론이 필요한 요청과 그렇지 않은 요청을 동일 모델이 처리하게 된다는 의미입니다. 인프라 관점에서는 모델 라우팅 로직이 사라지고, 비용 관점에서는 “무거운 추론 모델”을 항상 켜 두지 않아도 된다는 뜻이 됩니다.

공식 문서에 따르면 이 파라미터는 두 가지 값을 지원합니다. reasoning_effort="none"으로 설정하면 Mistral Small 3.2와 동일한 빠른 채팅 스타일로 응답합니다. reasoning_effort="high"로 올리면 이전 Magistral 모델 수준의 단계별 추론이 작동합니다. (출처: Mistral AI 공식 발표문 — mistral.ai/news/mistral-small-4, 2026.03.16)

단, 주의할 부분이 있습니다. reasoning_effort="high"는 출력 토큰 수가 늘어납니다. 토큰당 과금 구조에서 추론 깊이를 높일수록 출력 비용이 비례해서 올라갑니다. “추론이 공짜로 포함된다”는 말은 기능 접근 비용이 없다는 뜻이지, 추론 과정에서 발생하는 토큰 비용이 사라진다는 의미가 아닙니다.

▲ 목차로 돌아가기

“Small”인데 왜 H100 4장이 필요한가요

Mistral Small 4의 자체 호스팅 최소 사양은 Mistral 공식 발표문에 명시돼 있습니다. 최소 구성은 4× NVIDIA HGX H100, 2× NVIDIA HGX H200, 또는 1× NVIDIA DGX B200입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 권장 구성은 H100 기준 8장입니다.

⚠️ H100 80GB SXM 한 장의 시장 가격은 약 $25,000~30,000 수준(2026년 1분기 추정치)입니다. 최소 4장이면 하드웨어 구매 비용만 $100,000 이상입니다. 이는 “작은 팀이 온프레미스로 돌리는” 수준이 아닙니다. — 해당 수치는 공개된 GPU 시장 데이터 기반 추정이며, 실제 구매 조건에 따라 다를 수 있습니다.

HuggingFace에 올라온 4-bit Q4_K_M 양자화 버전도 용량이 72.2GB입니다. RTX 5090(32GB VRAM) 단일 카드로는 올라가지 않습니다. Reddit에서 한 사용자가 직접 확인한 수치입니다 — “Q4 양자화: 72.2GB, Q6: 97.7GB, Q8: 126GB — 5090 한 장으로는 힘들다.” (출처: r/MistralAI 커뮤니티 스레드, 2026.03.16)

그렇다면 “Small 4″라는 이름은 왜 붙었을까요. Mistral의 네이밍 기준은 모델 크기가 아니라 제품 라인업 포지션입니다. Small = Large의 아래, Medium의 아래입니다. 119B라도 675B짜리 Mistral Large 3보다는 작습니다. 이름과 규모 사이의 괴리는 MoE 구조가 확산될수록 더 자주 만나게 될 현상입니다.

▲ 목차로 돌아가기

벤치마크보다 출력 길이를 본 이유

Mistral이 Small 4를 발표하면서 강조한 수치는 점수가 아니었습니다. 출력 길이였습니다. 공식 발표문에는 이렇게 적혀 있습니다: AA LCR 벤치마크에서 Mistral Small 4는 0.72 점수를 얻으면서 출력 길이는 1.6K 문자였습니다. Qwen 계열 모델이 비슷한 점수를 내기 위해 5.8K~6.1K 문자를 출력한 것과 비교됩니다. LiveCodeBench에서는 GPT-OSS 120B를 능가하면서 출력량은 20% 적었습니다. (출처: Mistral AI 공식 발표문, 2026.03.16)

이 수치가 실용적으로 의미하는 것은 이렇습니다. API 과금은 출력 토큰 수에 비례합니다. 같은 정답을 내면서 출력이 짧다는 건, 동일한 품질의 결과에 더 낮은 비용이 나온다는 뜻입니다. Qwen3.5 122B가 5.7K 문자를 내보낼 때 Small 4가 1.6K로 같은 결론에 도달했다면, 출력 비용 차이는 약 3.5배입니다.

💡 발표 슬라이드와 벤치마크 수치를 같이 놓고 보니 이런 그림이 나왔습니다 — Mistral이 점수 비교 대신 “출력 효율” 그래프를 전면에 내세운 건, Qwen3.5 상대로 순수 점수 경쟁에서 앞서기 어렵다는 현실을 알고 있기 때문일 수 있습니다. Reddit 커뮤니티에서도 “Qwen3 80B에 비해 점수가 부족한 것 아니냐”는 지적이 나왔고, Mistral 측의 대응은 점수 반박이 아닌 토큰 효율 재강조였습니다.

여기서 하나 확인이 필요한 부분이 있습니다. 이 벤치마크 수치는 Mistral AI가 직접 공개한 자사 데이터입니다. 독립 기관의 재현 결과가 아직 충분하지 않습니다. “출력 효율이 우수하다”는 주장은 공식 수치로는 존재하지만, 다양한 실제 사용 환경에서도 동일하게 재현되는지는 확인 필요입니다.

▲ 목차로 돌아가기

실제로 어떤 상황에 맞는 모델인가

솔직히 말하면, Mistral Small 4는 모든 상황에 맞는 모델이 아닙니다. 지금 시점(2026.03.20 기준)에서 어떤 상황에서 선택할 만한지, 어떤 경우에는 다른 모델을 봐야 하는지를 정리해 봤습니다.

이런 상황이라면 써볼 만합니다

하나의 API 엔드포인트에서 일반 채팅과 추론을 모두 처리하고 싶을 때, 그리고 코드베이스 탐색이나 멀티파일 분석처럼 긴 컨텍스트(최대 256k 토큰)가 필요한 에이전틱 태스크에서 유리합니다. Apache 2.0 라이선스라는 점도 중요합니다 — 상용 제품에 포함하거나 파인튜닝해서 재배포할 때 라이선스 걱정이 없습니다. API 비용 자체는 GPT-4.1 대비 입력 기준 약 13분의 1 수준입니다.

여기서는 걸립니다

자체 호스팅을 전제로 하는 경우, 앞서 설명한 대로 H100 4장 이상이 필요합니다. 소규모 팀이나 개인 연구자 환경에서 온프레미스로 돌리는 건 현실적으로 어렵습니다. 또한 출시된 지 4일밖에 안 됐기 때문에(2026.03.20 기준), vLLM 등 오픈소스 서빙 스택의 tool calling 파싱 관련 수정 사항이 아직 업스트림에 반영 중입니다. 공식 문서에도 이 부분이 “안정화 중”이라고 명시돼 있습니다. (출처: marktechpost.com, 2026.03.16 기사 중 Mistral 공식 자료 인용)

롤플레이나 창작 특화 용도, 또는 인터넷 검색 연동이 중요한 리서치 용도에서는 Reddit 커뮤니티 사용자들이 여전히 Gemini를 선호한다는 반응이 나오고 있습니다. “모델 자체보다 검색 연동 완성도가 결정적”이라는 지적도 있었습니다. 이 부분은 Le Chat의 검색 기능과 조합해 쓸 때 개선될 여지가 있지만, 현재 기준에서는 확인 필요입니다.

▲ 목차로 돌아가기

Q&A

Mistral Small 4와 이전 Small 3.1의 가장 큰 차이는 무엇인가요? ▼

핵심 차이는 세 가지입니다. 첫째, Small 4는 추론(reasoning) 기능이 통합됐습니다 — reasoning_effort 파라미터로 제어 가능하며, Small 3.1에는 없던 기능입니다. 둘째, 멀티모달 입력(이미지)을 지원합니다. 셋째, 컨텍스트 윈도우가 256k로 늘었습니다(Small 3.1은 128k). API 입력 단가는 오히려 $0.20에서 $0.15로 낮아졌습니다. (출처: OpenRouter 모델 비교, 2026.03 기준)

RTX 4090 한 장으로 Mistral Small 4를 돌릴 수 있나요? ▼

단독으로는 불가합니다. HuggingFace에 올라온 4-bit Q4_K_M 양자화 버전도 72.2GB로, RTX 4090(24GB VRAM)이나 RTX 5090(32GB VRAM) 단일 카드로는 로드되지 않습니다. CPU 오프로딩을 활용하면 동작은 가능하지만 응답 속도가 매우 느려집니다. 공식 권장 환경은 최소 4× NVIDIA HGX H100입니다. (출처: Reddit r/MistralAI 스레드 내 HuggingFace 수치 인용, 2026.03.16 / Mistral 공식 발표문)

reasoning_effort=”high”로 설정하면 요금이 많이 올라가나요? ▼

기능 접근 자체에 추가 요금은 없습니다. 그러나 추론 과정에서 생성되는 토큰이 늘어나기 때문에 출력 토큰 비용이 증가합니다. 출력 단가는 1M 토큰당 $0.60이며, 추론 깊이에 따라 응답 길이가 달라집니다. 복잡한 수학 문제나 다단계 코딩 요청에서는 출력 토큰 수가 몇 배 늘어날 수 있습니다. 정확한 추론 토큰 수는 요청마다 다르므로 API 응답 헤더의 usage 필드로 직접 확인하는 것이 현실적입니다.

Mistral AI API를 무료로 써볼 수 있나요? ▼

Mistral AI는 Experiment 플랜을 통해 API를 무료로 테스트할 수 있습니다. 신용카드 없이 휴대폰 번호 인증만으로 이용 가능합니다. 단, 전화번호 1개당 플랜 1개 제한이 있으며, Free Tier에서는 API 키당 초당 1 요청(1 rps) 전역 속도 제한이 적용됩니다. (출처: Mistral AI 공식 헬프 센터 — help.mistral.ai)

Qwen3.5보다 벤치마크 점수가 낮은데 쓸 이유가 있나요? ▼

점수 차이가 있는 건 사실입니다. 그러나 비교 기준이 “동일 점수에서 출력 토큰 수”로 바뀌면 그림이 달라집니다. Qwen3.5 122B가 AA LCR에서 5.8K 문자를 출력할 때 Small 4는 1.6K로 유사한 점수를 냈습니다. 토큰당 과금 구조에서 이 차이는 출력 비용 약 3.5배로 직결됩니다. 또한 Small 4 출력 단가($0.60/1M)는 Qwen3.5 API 제공처보다 저렴합니다(darktka 커뮤니티 발언 기준, 확인 필요). Apache 2.0 라이선스 조건이 중요한 환경에서는 Qwen보다 Small 4가 더 유리할 수 있습니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 “하나로 다 되는 모델”을 표방하는데, 이 주장이 절반은 맞고 절반은 과장입니다. API로 쓸 때는 추론·채팅·멀티모달을 단일 엔드포인트에서 다루는 구조가 실용적이고, 요금도 합리적입니다. 반면 “Small”이라는 이름에서 가볍게 온프레미스로 돌릴 수 있다는 인상을 받았다면, H100 4장 요구 사항이 그 기대를 정면으로 깨뜨립니다.

출시된 지 4일밖에 안 된 시점이라 vLLM 통합 안정성, 실사용 벤치마크, 장기적인 환각률 패턴 등은 아직 데이터가 쌓이지 않았습니다. 지금 당장 프로덕션에 투입하기보다는, Mistral AI Studio에서 reasoning_effort 파라미터를 직접 실험해 보면서 실제 토큰 사용량과 품질을 확인하는 것이 현실적인 접근입니다.

MoE 구조가 확산되면서 “파라미터 수 = 모델 무게”라는 직관이 더 이상 통하지 않게 됐습니다. Mistral Small 4는 그 변화를 가장 선명하게 보여주는 사례 중 하나입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Mistral AI 공식 발표문 — Introducing Mistral Small 4 mistral.ai/news/mistral-small-4
Artificial Analysis — Mistral Small 4 Provider 벤치마크 artificialanalysis.ai
OpenRouter — mistralai/mistral-small-2603 가격·스펙 openrouter.ai
MarkTechPost — Mistral Small 4 분석 기사 (2026.03.16) marktechpost.com
Reddit r/MistralAI — Introducing Mistral Small 4 커뮤니티 반응 (2026.03.16)
Mistral AI 헬프 센터 — Free Tier API 안내 help.mistral.ai

본 포스팅은 2026년 3월 20일 기준으로 공개된 정보를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 Mistral AI의 서비스 정책·UI·요금·기능이 변경될 수 있습니다.
API 요금 및 모델 스펙은 최신 공식 문서에서 직접 확인하시기 바랍니다.

AI API 요금, 오픈소스 LLM, Mistral Small 4, MoE 모델, reasoning_effort

Mistral Small 4, “Small”인데 H100이 4개 필요합니다

Mistral Small 4, “Small”인데
H100이 4개 필요합니다

119B인데 실제로 쓰이는 건 6B입니다

API 요금, 숫자만 보면 이렇습니다

reasoning_effort 파라미터, 이게 핵심입니다

“Small”인데 왜 H100 4장이 필요한가요

벤치마크보다 출력 길이를 본 이유