Apache 2.0 라이선스
오픈웨이트 MoE
Mistral Large 3, 675B라면서 왜 이렇게 쌀까요?
675B 파라미터짜리 모델이 API 입력 요금 $0.5/M 토큰이라는 건, 상식적으로 이해가 안 갑니다. GPT-5.1이 입력 $2.5/M인 것과 비교하면 5배나 쌉니다. 이 가격이 가능한 데는 분명한 구조적 이유가 있고, 동시에 그 구조가 만드는 한계도 존재합니다. 공식 문서와 실측 벤치마크를 교차해서 정리했습니다.
675B인데 왜 이렇게 싼가 — MoE 구조의 비밀
Mistral Large 3는 675B 파라미터가 맞습니다. 하지만 실제 추론할 때 켜지는 건 41B뿐입니다. 이게 Sparse Mixture-of-Experts(MoE) 아키텍처의 핵심입니다. 토큰이 들어올 때마다 수천 개의 전문가 서브네트워크 중 일부만 활성화해서 처리하고, 나머지는 그냥 잠들어 있습니다. 활성 파라미터 비율이 총 파라미터 대비 약 6%밖에 안 됩니다. (출처: Mistral AI 공식 발표문, 2025.12.02)
이 구조 덕분에 실제 연산량은 40~50B 급 Dense 모델과 비슷합니다. 요금은 연산량에 비례하기 때문에, 675B짜리 모델이 $0.5/M 토큰이라는 가격이 성립하는 겁니다. 모델 크기와 요금이 직결된다고 생각하면 이 가격은 말이 안 되지만, 활성 파라미터 기준으로 보면 계산이 맞습니다.
💡 공식 발표문과 요금 구조를 같이 놓고 보니 이런 차이가 보였습니다.
675B vs 41B — 어느 숫자로 요금을 계산해야 할까요?
요금 책정 기준은 총 파라미터가 아니라 실제 추론에 쓰이는 활성 파라미터입니다. 즉 같은 MoE 구조를 가진 DeepSeek V3(활성 37B)가 Mistral Large 3(활성 41B)보다 저렴한 이유도 이 비율 차이에서 옵니다.
이 아키텍처는 2025년 12월 기준 오픈소스 커뮤니티 최초로 LMArena 리더보드 OSS 비추론 모델 2위에 오른 배경이기도 합니다. (출처: LMArena 리더보드, 2025.12 기준)
유료 API 결제해도 속도는 안 빨라집니다
Mistral AI Studio에서 실험적(무료) API를 쓰다가 유료로 전환한 사용자들이 처음에 놀라는 부분이 있습니다. 속도가 거의 그대로라는 겁니다. Reddit MistralAI 커뮤니티에서 실사용자가 직접 확인한 내용입니다. 유료 API로 바꿔도 응답 속도는 유의미하게 달라지지 않았고, 이는 다른 사용자들도 동일하게 경험했습니다. (출처: Reddit r/MistralAI, 2025.04 게시물)
실제로 Mistral Large 계열은 MoE 라우팅 오버헤드와 대규모 파라미터 로드 특성 때문에 응답 초기 레이턴시가 상대적으로 높습니다. 유료/무료 차이는 속도가 아니라 월간 요청 쿼터입니다. 무료 API의 쿼터를 다 소진한 경우에만 유료 전환이 의미 있습니다.
💡 레이턴시 프로파일을 보면 단순 QA는 빠르고, 다단계 추론일수록 급격히 느려집니다.
LayerLens 벤치마크 실측치 기준으로 AGIEval English는 약 923ms인 반면, Terminal-Bench(다단계 터미널 실행)는 약 287,922ms(약 288초)에 달했습니다. (출처: LayerLens Atlas 벤치마크, 2025.12.05)
속도가 중요하다면 Mistral Small 3.1이나 Ministral 8B가 현실적인 대안입니다. 공식 문서에서도 속도 우선 워크플로우에는 경량 모델 사용을 권장하고 있습니다. (출처: docs.mistral.ai, 2026.03 기준)
실제 벤치마크 수치로 본 강점과 약점
수치를 직접 확인했습니다. 강점과 약점이 꽤 뚜렷하게 나뉩니다.
| 벤치마크 | Mistral Large 3 | 비고 |
|---|---|---|
| MATH-500 | 93.60% | 강점 |
| HumanEval (Python 코딩) | 90.24%~92% | 강점 |
| AGIEval English | 74.00% | 양호 |
| MMLU-Pro | 73.11% | 양호 |
| GPQA Diamond (대학원 수준 과학) | 43.9% | 약점 |
| SimpleQA (사실 정확성·기권율) | 23.8% | 약점 |
| Terminal-Bench (다단계 터미널 실행) | 23.75% | 약점 |
출처: LayerLens Atlas 벤치마크 (2025.12.05), leucopsis Medium 리뷰 (2025.12.06)
SimpleQA 23.8%는 숫자만 보면 낮아 보이지만, 실제로는 “모르는 걸 모른다고 하지 않고 자신감 있게 틀리는 경향“을 드러냅니다. 규제 산업(의료, 법률, 금융)에서 RAG 없이 원시 출력을 그대로 신뢰하면 위험한 지점입니다.
Apache 2.0 라이선스가 요금보다 더 중요한 이유
Mistral Large 3를 쓰는 이유로 “저렴하다”를 꼽는 사람이 많은데, 실제로 기업 도입 결정에서 더 결정적인 요인은 라이선스입니다. Apache 2.0은 상업적 사용, 수정, 재배포에 제한이 없습니다. 이게 왜 중요하냐면, DeepSeek·Kimi K2·GLM 같은 중국산 오픈소스 모델들은 라이선스 조항이나 지정학적 규제 리스크가 존재하기 때문입니다.
💡 오픈소스 라이선스와 데이터 주권이 함께 움직이는 구조를 보면, 유럽 기업들이 왜 Mistral을 먼저 검토하는지 보입니다.
Mistral AI는 파리에 본사를 둔 EU 기업으로, GDPR 준거 환경에서 데이터를 자체 서버에 유지하면서 모델을 돌릴 수 있습니다. 금융·공공행정·의료 분야에서 데이터가 외부로 나갈 수 없는 경우, Apache 2.0 + EU 출처 + 자체 호스팅 가능성이라는 조합은 비용과 관계없이 선택지를 좁혀줍니다.
실제로 Mistral AI Studio, Amazon Bedrock, Azure Foundry, IBM WatsonX, Hugging Face 등 10개 이상 플랫폼에 동시 배포되어 있습니다. (출처: Mistral AI 공식 발표문, 2025.12.02) 어느 클라우드 벤더에 락인되지 않아도 된다는 뜻입니다.
DeepSeek V3·Claude Sonnet 4와 요금 직접 비교
요금표를 그냥 나열하는 대신, 실제 사용 시나리오로 계산해봤습니다.
| 모델 | 입력 /M 토큰 | 출력 /M 토큰 | 컨텍스트 |
|---|---|---|---|
| Mistral Large 3 | $0.50 | $1.50 | 256K |
| DeepSeek V3 | $0.27 | $1.10 | 128K |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200K |
| GPT-5.1 | $2.50 | $10.00 | 200K |
| DeepSeek R1 | $0.55 | $2.19 | 128K |
출처: GitHub salttechno/LLM-Model-Comparison-2026 (2026.02.18), Mistral 공식 문서 (docs.mistral.ai), TLDL LLM API Pricing 2026 (2026.02.24)
시나리오: 매달 입력 10M 토큰, 출력 3M 토큰 규모의 기업 워크플로우를 돌린다고 가정하면 월 비용은 이렇습니다.
📊 월간 추정 API 비용 계산 (입력 10M + 출력 3M 토큰 기준)
- Mistral Large 3: (10 × $0.50) + (3 × $1.50) = $9.50
- DeepSeek V3: (10 × $0.27) + (3 × $1.10) = $6.00
- Claude Sonnet 4.6: (10 × $3.00) + (3 × $15.00) = $75.00
- GPT-5.1: (10 × $2.50) + (3 × $10.00) = $55.00
Mistral Large 3가 Claude Sonnet 4.6보다 약 7.9배 저렴하고, DeepSeek V3보다는 약 1.6배 비쌉니다. “오픈소스 + Apache 2.0 + EU 데이터 주권 + 256K 컨텍스트”라는 조건이 필요하다면, DeepSeek V3보다 약간 비싸지만 그 조건을 충족하는 유일한 선택지입니다.
A100 8장으로 675B를 돌릴 수 있다는 말의 실제 의미
675B 모델이라고 하면 보통 수백 장의 GPU가 필요할 것 같은데, 공식 문서에 다른 내용이 나와 있습니다. NVFP4 포맷을 쓰면 A100 또는 H100 8장짜리 단일 노드에서 실행 가능합니다. (출처: Mistral AI 공식 발표문, 2025.12.02; Medium AIMonks 리뷰, 2025.12.09)
💡 NVFP4 포맷이 실제로 무엇을 바꾸는지 보면, “단일 노드 배포”라는 말의 무게가 달리 느껴집니다.
BF16 전체 가중치 기준으로 675B 모델은 약 1.35TB VRAM이 필요합니다. 하지만 NVFP4(4비트 양자화)로 압축하면 약 340GB 수준으로 줄어들고, A100 80GB × 8 = 640GB에 수용이 가능해집니다. 즉 이론상 가능하다는 얘기가 아니라, NVIDIA와 공동 개발한 llm-compressor로 이미 최적화된 체크포인트가 공개되어 있습니다.
다만 여기서 “홈 서버로 돌리기 어렵다”는 한계가 생깁니다. A100 80GB 8장은 엔터프라이즈 데이터센터 장비입니다. 개인 RTX 4090으로는 Ministral 14B까지가 현실적인 선택입니다. 개인 사용자에게 “오픈소스니까 로컬로 돌리면 된다”는 말은 Large 3에는 적용되지 않습니다.
결국 Mistral Large 3는 자체 서버를 운영하는 기업이나, 클라우드 API로 비용 절감을 원하는 팀에게 가장 현실적인 모델입니다. 이 두 케이스가 아니라면 Ministral 시리즈가 더 맞는 선택입니다.
자주 나오는 질문 5가지
마치며 — 총평
솔직히 말하면, Mistral Large 3는 “모든 면에서 최고”는 아닙니다. GPQA Diamond 43.9%, SimpleQA 23.8%, Terminal-Bench 23.75% — 이 세 수치는 각각 고급 과학 추론, 사실 정확도, 다단계 자율 에이전트 작업에서 뚜렷한 한계를 가리킵니다.
하지만 그게 이 모델의 포지셔닝을 틀리게 만들지는 않습니다. $0.5/M 입력 토큰에 256K 컨텍스트, Apache 2.0 라이선스, EU 출처라는 조합은 특정 조건에서 다른 선택지가 없는 유일한 해법이 됩니다. 대량 문서 처리, 다국어 기업 어시스턴트, 자체 서버 온프레미스 배포 — 이 세 가지 중 하나라도 해당된다면 비교 우위가 있습니다.
Reasoning 버전이 나오면 지금의 약점이 크게 보완될 가능성이 있습니다. 당장 DeepSeek V3 수준의 가성비를 원하면서 라이선스·지정학 리스크를 피해야 하는 상황이라면, 지금 시점에서 현실적인 첫 번째 선택지로 두기에 충분합니다.
📎 본 포스팅 참고 자료
- Mistral AI 공식 발표문 — Mistral 3 출시 (mistral.ai/news/mistral-3)
- Mistral AI 공식 모델 문서 — Mistral Large 3 v25.12 (docs.mistral.ai)
- LayerLens Atlas 벤치마크 리뷰 (Medium, 2025.12.05)
- leucopsis Medium 리뷰 — Mistral Large 3 심층 분석 (Medium, 2025.12.06)
- GitHub LLM Model Comparison 2026 요금 비교표 (github.com, 2026.02.18)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 요금 수치는 2026년 4월 1일 기준 공식 자료를 바탕으로 작성되었으며, 이후 업데이트 시 달라질 수 있습니다.











댓글 남기기