MiniMax M2.7, 가격이 7%인데 성능이 같다고요?

Published on

in

MiniMax M2.7, 가격이 7%인데 성능이 같다고요?

2026.03.18 출시
MiniMax M2.7 기준
API 가격 기준

MiniMax M2.7, 가격이 7%인데
성능이 같다고요?

Claude Opus 4.6와 실전 코딩 3종 테스트를 돌려봤더니 버그 검출은 동률이었습니다.
비용은 $3.67 대 $0.27 — 공식 수치로 직접 따져봤습니다.

$0.30
입력 1M 토큰당
56.22%
SWE-Pro 벤치마크
34%
할루시네이션 비율

M2.7이 뭔지부터 — 전작과 뭐가 다른가

MiniMax M2.7은 2026년 3월 18일 공개된 MiniMax의 최신 프로프라이어터리 LLM입니다. 전작인 M2.5가 2026년 2월 12일에 나온 뒤 겨우 한 달 만의 업데이트인데, 단순한 성능 개선 버전이 아닙니다. M2.7이 내세우는 핵심 차별점은 “모델 스스로가 자신의 강화학습 실험에 참여했다”는 점입니다.

MiniMax는 중국 상하이에 본사를 둔 AI 스타트업으로, 이전 세대 모델들(M2, M2.5)은 오픈소스로 공개했습니다. 그런데 M2.7은 일단 프로프라이어터리로 출시하고, 오픈 웨이트(가중치 공개)는 약 2주 후로 예고한 상태입니다(출처: MiniMax X 계정, 2026.03.19). API와 MiniMax Agent 플랫폼에서는 지금 바로 쓸 수 있습니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

M2.5는 “오픈소스 최강 코딩 모델”로 포지셔닝했지만, M2.7은 에이전트 팀(Agent Teams) 기능과 복잡한 스킬 관리를 전면에 내세웁니다. 코드 한 줄 잘 쓰는 것에서, 실제 프로덕션 시스템을 이해하고 운영하는 방향으로 포커스가 옮겨졌습니다.

주요 벤치마크 결과를 먼저 보면 이렇습니다. SWE-Pro(실세계 소프트웨어 엔지니어링) 56.22%, VIBE-Pro(전체 프로젝트 납품) 55.6%, Terminal Bench 2(복잡한 엔지니어링 시스템 이해) 57.0%, GDPval-AA(전문 오피스 작업 ELO) 1495. MLE-Bench Lite(자율 머신러닝 연구)에서는 메달 취득률 66.6%로 Gemini 3.1과 동률이었습니다 (출처: MiniMax 공식 블로그, 2026.03.18).

▲ 목차로 돌아가기

고성능 모델이 더 부정확하다는 통념이 뒤집혔습니다

할루시네이션 비율: M2.7 34% vs Claude Sonnet 4.6 46% vs Gemini 3.1 Pro 50%

많은 사람들이 “중국산 저가 모델은 그만큼 환각이 심하겠지”라고 생각합니다. 그런데 VentureBeat가 공식 발표 자료를 분석한 결과는 다릅니다. M2.7의 할루시네이션 비율은 34%인 반면, Claude Sonnet 4.6은 46%, Gemini 3.1 Pro Preview는 50%입니다 (출처: VentureBeat, MiniMax 공식 자료 인용, 2026.03.18). 더 비싼 모델이 더 정확할 거라는 기대가 이 수치에서는 성립하지 않습니다.

모델 할루시네이션 비율 입력 단가(1M)
MiniMax M2.7 34% $0.30
Claude Sonnet 4.6 46% $3.00
Gemini 3.1 Pro Preview 50% $2.00

물론 할루시네이션 비율은 벤치마크 구성 방식에 따라 달라지므로 단순 비교는 신중해야 합니다. MiniMax가 사용한 AA-Omniscience Index는 자사 기준이 포함된 측정이며, 이 수치만으로 “M2.7이 가장 정확하다”고 단정할 수는 없습니다. 다만 “저렴한 모델 = 환각이 심하다”는 가정 자체는 이 데이터에서 지지되지 않습니다.

💡 전작(M2.5)과 비교하면 개선폭이 더 또렷합니다

M2.5의 AA-Omniscience Index 점수는 -40점이었고 M2.7은 +1점입니다. 한 달 사이 41점 차이. 같은 기간 가격은 그대로($0.30/$1.20)입니다 (출처: Artificial Analysis, 2026.03.18). 가격을 올리지 않고 이 폭의 정확도 개선을 이뤄낸 건 주목할 만합니다.

▲ 목차로 돌아가기

가격은 7%, 버그 검출은 동률 — 실측 데이터

Kilo Code 팀의 3종 실전 테스트 결과

AI 코딩 도구 Kilo Code 팀이 M2.7과 Claude Opus 4.6을 동일한 3개의 TypeScript 코드베이스에 적용해 비교했습니다 (출처: Kilo Code 블로그, 2026.03.22). 테스트 항목은 ①전체 이벤트 처리 시스템 신규 구축, ②프로덕션 로그에서 버그 6개 추적, ③보안 취약점 10개 감사입니다. 같은 프롬프트, 힌트 없음, 독립적 채점 방식으로 진행했습니다.

테스트 항목 Claude Opus 4.6 MiniMax M2.7
버그 검출 (6개) 6/6 ✓ 6/6 ✓
보안 취약점 (10개) 10/10 ✓ 10/10 ✓
통합 테스트 수 41개 20개
3회 테스트 총 비용 $3.67 $0.27

검출 성능은 같은데, 비용은 M2.7이 Claude Opus 4.6의 약 7.3%입니다. 단순 계산: $0.27 ÷ $3.67 = 0.0736 → 반올림하면 7.4%. 1만 번의 API 호출로 환산하면 Claude Opus 4.6은 약 36만 7천 달러, M2.7은 약 2만 7천 달러가 됩니다. 검출 성능이 동일하다면 이 차이는 무시하기 어렵습니다.

⚠️ 단, 차이가 나는 지점이 있습니다

Claude Opus 4.6은 통합 테스트를 41개 작성하고, 롤백 로직과 다층 보안 수정을 포함합니다. M2.7은 20개의 유닛 테스트만 작성했고, 보안 수정 일부를 기능 비활성화로 해결했습니다. “버그를 찾는 것”과 “운영 환경에 바로 배포할 수 있는 수준의 수정”은 다릅니다. 최종 납품 품질이 기준이라면 격차는 존재합니다.

▲ 목차로 돌아가기

AI가 자신을 훈련한다는 말의 실제 의미

M2.7이 자신의 개발 워크플로 30~50%를 직접 처리했습니다

MiniMax가 M2.7 개발 중 사용한 방식은 이렇습니다. 이전 버전의 M2.7 모델을 연구 에이전트 하네스에 연결해, 데이터 파이프라인 구축·학습 환경 관리·평가 실행·디버깅·메트릭 분석을 자율적으로 수행하게 했습니다. 이 과정에서 모델이 자신의 강화학습 실험 워크플로의 30~50%를 처리했다고 공식 발표문에 명시돼 있습니다 (출처: MiniMax 공식 블로그, 2026.03.18).

MLE-Bench Lite(OpenAI가 오픈소스로 공개한 머신러닝 경진대회 22개)에서는 M2.7이 24시간씩 3회 자율 실험을 돌렸고, 최종 결과로 금메달 9개, 은메달 5개, 동메달 1개를 획득했습니다. 평균 메달 취득률 66.6%는 Claude Opus 4.6(75.7%), GPT-5.4(71.2%)에 이은 3위이며, Gemini 3.1과 동률입니다 (출처: MiniMax 공식 블로그, 2026.03.18). 단일 A30 GPU로 돌릴 수 있는 조건에서 나온 결과입니다.

💡 “자가 진화”가 실제로 무엇을 바꿨는지 따져보면

M2.7은 100회 이상의 자율 반복 루프를 통해 온도(temperature), 빈도 패널티, 존재 패널티 같은 샘플링 파라미터 조합을 스스로 탐색하고, 동일한 버그 패턴이 다른 파일에도 있는지 자동으로 검색하는 워크플로 가이드라인을 직접 설계했습니다. 이 과정에서 내부 평가 기준으로 30% 성능 향상이 측정됐습니다. 사람이 설계한 규칙이 아니라 모델이 발견한 패턴이라는 점에서 이전 세대와 성격이 다릅니다.

▲ 목차로 돌아가기

M2.7이 오히려 불리한 조건이 있습니다

빠른 반복 작업에는 전작 M2.5가 나을 수 있습니다

Kilo Code 팀의 Kilo Bench(89개 코딩 자율 작업) 결과에서 M2.7의 중간 작업 소요시간(median task duration)은 355초로, 전작들보다 눈에 띄게 깁니다 (출처: Reddit r/LocalLLaMA, Kilo Code 벤치마크, 2026.03.19). M2.7은 코드를 쓰기 전에 주변 파일을 광범위하게 읽고, 의존성을 추적하고, 호출 체인을 탐색하는 패턴이 있습니다. 컨텍스트가 중요한 복잡한 리팩터링에서는 강점이지만, 시간 제한이 있는 단순 작업에서는 타임아웃으로 실패하기도 합니다.

BridgeBench(바이브 코딩, 자연어를 코드로 전환하는 능력) 기준으로는 M2.5가 12위, M2.7이 19위로 전작이 더 좋은 점수를 기록했습니다 (출처: BridgeMind, 2026.03.18). 최신 버전이라고 모든 작업에서 앞서는 건 아닙니다.

⚠️ M2.7이 적합하지 않은 케이스
  • 짧은 타임아웃이 걸린 CI/CD 파이프라인 내 자동 코딩
  • 단순한 코드 스니펫 생성이 주목적인 경우
  • 자연어를 단순 코드로 빠르게 변환하는 바이브 코딩
  • 완성도 높은 보안 수정을 한 번에 납품해야 하는 경우
  • 중국 서버 데이터 처리가 허용되지 않는 규제 환경

마지막 항목은 놓치기 쉬운 부분입니다. MiniMax는 중국 법인이며, 미국이나 EU에서 고규제 산업(금융, 의료, 국방 관련)의 기업이 도입할 때는 데이터 주권 리스크를 별도로 검토해야 합니다. VentureBeat도 이 점을 명시했습니다 (출처: VentureBeat, 2026.03.18).

▲ 목차로 돌아가기

가격 구조와 요금제 실전 계산

API 호출 vs 구독 플랜, 어떻게 다른가

M2.7을 쓰는 방법은 크게 두 가지입니다. API를 직접 호출하거나, MiniMax의 토큰 플랜에 구독하는 방식입니다. API 가격은 입력 토큰 1M당 $0.30, 출력 1M당 $1.20로 M2.5와 동일합니다 (출처: MiniMax 공식 API 문서, 2026.03.18). 이를 경쟁 모델과 직접 비교하면 이렇습니다.

모델 입력(1M) 출력(1M) 합산
MiniMax M2.7 $0.30 $1.20 $1.50
Gemini 3 Flash $0.50 $3.00 $3.50
GPT-5.2 $1.75 $14.00 $15.75
Claude Sonnet 4.6 $3.00 $15.00 $18.00
Claude Opus 4.6 $5.00 $25.00 $30.00

출처: MiniMax, VentureBeat 가격 비교표, 2026.03.18

구독 플랜을 택하면 요청 수 기반으로 과금됩니다. 스탠다드 Starter는 월 $10에 5시간당 1,500 요청, Plus는 월 $20에 4,500 요청, Max는 월 $50에 15,000 요청입니다. 고속 처리(Highspeed) 플랜은 동일 요청 수에 약 2배 가격입니다. 텍스트·음성·영상·이미지·음악 모두 하나의 쿼터를 공유합니다 (출처: VentureBeat, MiniMax 구독 플랜 인용, 2026.03.18). 영상·음악 생성 API를 자주 쓴다면 토큰이 빠르게 소진될 수 있으니 사용 패턴을 먼저 파악해야 합니다.

Claude Code, Cursor, Kilo Code 등 11개 이상의 주요 코딩 도구에서 M2.7을 공식 지원합니다. Anthropic SDK 사용자는 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트로 바꾸기만 하면 바로 연동됩니다 (출처: MiniMax 공식 API 문서, 2026.03.18). 기존 Claude 워크플로를 그대로 두고 모델만 교체해 비용을 비교해볼 수 있습니다.

▲ 목차로 돌아가기

Q&A

MiniMax M2.7은 지금 바로 한국에서 사용할 수 있나요?

네, API와 MiniMax Agent 플랫폼 모두 한국에서 접속 가능합니다. 별도 VPN 없이 platform.minimax.io와 agent.minimax.io에서 이용할 수 있습니다. 다만 한국어 지원 품질은 영어·중국어 대비 다소 낮을 수 있습니다. 공식 문서에서 별도 이유를 밝히지 않았습니다.
오픈소스(가중치 공개)는 언제 되나요?

MiniMax X(구 트위터) 계정에서 “약 2주 후 오픈 웨이트 공개”를 예고했습니다 (2026.03.19 기준). 구체적인 날짜는 아직 공개되지 않았습니다. M2와 M2.5도 API 출시 후 약 1~2주 뒤 HuggingFace에 올라온 선례가 있습니다.
Cursor나 VS Code에서 M2.7을 Claude 대신 쓸 수 있나요?

Kilo Code, Cursor, Cline, Roo Code, OpenCode 등 11개 이상의 도구에서 공식 지원합니다. Anthropic SDK 기반이라면 ANTHROPIC_BASE_URL 환경 변수를 MiniMax 엔드포인트(platform.minimax.io)로 바꾸면 바로 작동합니다. API 키는 MiniMax 플랫폼에서 발급받을 수 있습니다.
“자가 진화”라는 표현이 과장된 건 아닌가요?

과장이 없는 건 아닙니다. 현재 M2.7이 한 것은 “스스로 학습 데이터를 만들거나 아키텍처를 바꾼 것”이 아니라, 인간 연구자가 설계한 에이전트 하네스 안에서 강화학습 실험의 30~50%를 자율 수행한 것입니다. 전체 훈련 파이프라인을 AI가 완전 통제하지는 않습니다. MiniMax 자신도 “완전 자율로 가는 초기 탐색”이라고 표현했습니다 (출처: MiniMax 공식 블로그, 2026.03.18).
M2.7 vs M2.5, 지금 전환해야 하나요?

작업 유형에 따라 다릅니다. 대형 코드베이스 분석·에이전트 팀 운용·복잡한 문서 처리라면 M2.7이 낫습니다. 빠른 코드 스니펫 생성·타임아웃 제한이 있는 파이프라인·바이브 코딩이 주목적이라면 M2.5가 더 안정적입니다. 가격은 동일하므로 비용 차이는 없습니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, M2.7이 처음 발표됐을 때 “또 중국 AI 스타트업의 과장 발표겠지”라는 생각이 먼저 들었습니다. 그런데 Kilo Code 팀의 실측 데이터를 보고 나서는 달랐습니다. 버그 검출 동률, 가격은 7%. 이 두 숫자는 단순한 벤치마크 숫자가 아니라 실제 작업 환경에서 측정된 결과입니다.

물론 M2.7이 만능은 아닙니다. 통합 테스트 커버리지, 보안 수정의 완성도, 타임아웃 리스크, 그리고 중국 서버 데이터 처리 문제는 도입 전에 팀마다 따로 검토해야 합니다. “저렴하니까 일단 쓴다”가 아니라, 내 작업 흐름에 맞는 모델인지를 먼저 확인하는 게 맞습니다.

그래도 한 가지는 분명합니다. 2026년 3월 현재, AI 모델 가격과 품질의 비례 관계는 더 이상 당연하지 않습니다. M2.7은 그 증거 중 하나입니다.

본 포스팅 참고 자료

  1. MiniMax 공식 블로그 — MiniMax M2.7 발표 원문 https://www.minimax.io/news/minimax-m27-en
  2. VentureBeat — MiniMax M2.7 분석 (2026.03.18) venturebeat.com
  3. Kilo Code 블로그 — M2.7 vs Claude Opus 4.6 실전 비교 (2026.03.22) blog.kilo.ai
  4. Reddit r/LocalLLaMA — Kilo Bench + PinchBench 결과 (2026.03.19) reddit.com
  5. MiniMax API 공식 플랫폼 — 가격 및 구독 플랜 platform.minimax.io

본 포스팅은 2026년 3월 24일 기준 공개 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. API 가격 및 요금제는 MiniMax 공식 플랫폼에서 최신 정보를 확인하시기 바랍니다. 본 포스팅은 MiniMax와 어떠한 광고·제휴 관계도 없습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기