2026.03.18 기준
MiniMax M2.7 기준
TECH

MiniMax M2.7, 직접 써봤더니
싸다는 말이 달랐습니다

입력 토큰 $0.30/1M — 숫자만 보면 Claude Sonnet 4.5의 10분의 1 가격입니다. MiniMax M2.7은 2026년 3월 18일 공식 출시된 모델로, AI가 자기 자신의 강화학습에 직접 참여한 첫 번째 사례라는 점에서 주목받고 있습니다. 하지만 “싸고 좋다”는 말 뒤에 숨은 조건이 있습니다. 실제 API 호출 비용과 벤치마크 수치를 직접 뜯어봤습니다.

56.22%

SWE-Pro 벤치마크

$0.30

입력 /1M 토큰

66.6%

MLE Bench 메달률

30~50%

자체 RL 워크플로 처리율

M2.7이 다른 모델과 다른 결정적 이유

AI 모델은 사람이 설계하고 사람이 학습 파이프라인을 관리하는 구조가 기본이었습니다. MiniMax M2.7은 그 전제를 일부 바꿨습니다. MiniMax는 이 모델이 자신의 강화학습 실험 절차를 직접 실행하고, 실패 사례를 분석해 코드 수정 방향을 스스로 결정하도록 설계했습니다. 공식 발표문에 따르면, M2.7은 이 과정을 100회 이상 반복하면서 자체 스캐폴드의 프로그래밍 성능을 30% 끌어올렸습니다. (출처: MiniMax 공식 블로그, 2026.03.18)

이 과정이 흥미로운 건 단순 자동화가 아니라는 점입니다. 모델이 동일한 버그 패턴을 다른 파일에서도 자동 탐색하는 가이드라인을 스스로 작성하거나, 에이전트 루프에 무한 반복 방지 로직을 추가하는 등 구조적 최적화를 실행합니다. 사람 연구자가 여러 팀에 걸쳐 협업해야 처리하던 작업을 M2.7이 30~50% 처리합니다.

💡 공식 발표문과 실제 개발 워크플로를 같이 놓고 보면 이런 차이가 보입니다 — MiniMax는 M2.7을 단순히 “성능이 올라간 모델”이 아니라, 조직이 AI-네이티브로 전환하는 내부 도구로 먼저 써서 검증했습니다. MLE Bench Lite 22개 대회에서 평균 메달률 66.6%를 기록했는데, 이는 Gemini 3.1(66.6%)과 동일하고 Claude Opus 4.6(75.7%)과 GPT-5.4(71.2%)에만 뒤집니다. (출처: MiniMax 공식 블로그, 2026.03.18)

▲ 목차로 돌아가기

벤치마크 수치, 어디까지 믿어야 할까

M2.7의 공식 발표 수치는 인상적입니다. SWE-Pro 56.22%, SWE Multilingual 76.5%, GDPval-AA ELO 1495, MM Claw 62.7%. 특히 SWE-Pro 56.22%는 GPT-5.3-Codex와 동일한 수치입니다. (출처: MiniMax 공식 모델 페이지, 2026.03.18) 이 정도면 오픈AI와 비슷한 코딩 성능입니다.

하지만 독립 제3자 벤치마크에서는 공식 수치와 다른 부분이 나옵니다. Kilo Code 팀이 PinchBench와 Kilo Bench 89개 태스크로 직접 측정한 결과, M2.7은 PinchBench에서 86.2%로 5위를 기록했습니다. GLM-5와 GPT-5.4(둘 다 86.4%)에는 0.2% 포인트 뒤집니다. 이것만 보면 좋아 보이지만, 핵심은 따로 있습니다. M2.7은 작업 중 주변 파일과 의존성을 광범위하게 읽는 성향이 있어서 타임아웃이 발생하는 경우가 있었고, Kilo Bench에서 중위 작업 완료 시간이 355초로 비교군 중 가장 길었습니다. (출처: Kilo Code 팀, Reddit/LocalLLaMA, 2026.03.19)

M2.5 대비 성능 향상 — 수치로 직접 확인

벤치마크	M2.5	M2.7	변화
SWE-Pro	—	56.22%	신규
PinchBench	82.5%	86.2%	+3.7%p
AA 옴니사이언스 환각률	Index −40	Index +1	+41p
할루시네이션 비율	—	34%	Claude Sonnet 4.6(46%)보다 낮음
Artificial Analysis 종합지수	42	50	+8

출처: MiniMax 공식 발표(2026.03.18), VentureBeat(2026.03.19), Kilo Code 팀 벤치마크(2026.03.19)

AA 옴니사이언스 지수에서 M2.5는 −40이었는데 M2.7이 +1로 올라선 건, 한 달 사이에 환각 방어 능력이 구조적으로 바뀌었다는 의미입니다.

▲ 목차로 돌아가기

‘싸다’는 말이 항상 맞지 않는 경우

M2.7의 공식 API 가격은 입력 $0.30/1M 토큰, 출력 $1.20/1M 토큰입니다. (출처: MiniMax 공식 플랫폼, 2026.03.18) 비교표를 보면 Claude Sonnet 4.5($3.00 입력 / $15.00 출력)보다 10배, Claude Opus 4.6($5.00 / $25.00)보다는 17배 저렴합니다. 이 수치만 보면 M2.7이 압도적으로 유리합니다.

문제는 Kilo Bench 실측에서 드러납니다. Kilo Code 팀 분석에 따르면, M2.7은 동일 태스크를 처리할 때 Kimi K2.5보다 토큰을 3.9배 더 사용했습니다. (출처: Kilo Code 팀, Reddit/LocalLLaMA, 2026.03.19) Kimi K2.5의 가격은 입력 $0.60, 출력 $3.00입니다. 입출력 비율을 1:1로 가정하면, 실제 호출 비용을 계산했을 때 M2.7이 2.95배 더 비쌉니다. 표기 가격의 저렴함이 실사용에서 그대로 이어지지 않습니다.

⚠️ 실제 비용 추정 계산 (검증 가능)

M2.7 총 비용 = ($0.30 × 입력토큰 + $1.20 × 출력토큰) / 1,000,000
Kimi K2.5 총 비용 = ($0.60 × 입력토큰 + $3.00 × 출력토큰) / 1,000,000

단, M2.7은 같은 태스크에 토큰을 3.9배 더 사용 → 실질 비용 2.4~4배 역전 가능
(입출력 비율에 따라 달라짐. 4:1 비율이면 M2.7이 4배 더 비쌈)

출처: Kilo Code 팀 벤치마크 분석(Reddit/LocalLLaMA, 2026.03.19), MiniMax 공식 가격표(2026.03.18)

M2.7이 토큰을 많이 쓰는 이유는 그게 모델의 작동 방식이기 때문입니다. 코드 수정 전에 주변 파일과 의존성 트리를 넓게 읽습니다. 정확도를 위해 맥락을 최대한 수집하는 방식인데, 시간이 촉박하거나 간단한 태스크에는 역효과입니다.

바이브코딩에서는 오히려 전 버전이 낫습니다

BridgeBench 결과에서 M2.5는 50개 모델 중 12위였는데, M2.7은 19위로 떨어졌습니다. (출처: BridgeMind AI, VentureBeat 2026.03.19 인용) 자연어를 바로 코드로 전환하는 “바이브코딩” 방식에서는 M2.7이 M2.5보다 뒤처집니다. 새 버전이 무조건 모든 상황에서 낫지는 않습니다.

▲ 목차로 돌아가기

오픈소스라고 했는데, 지금 당장 안 되는 것

MiniMax는 M2 시리즈를 오픈소스 정책으로 운영해왔습니다. M2, M2.1, M2.5 모두 HuggingFace에 가중치가 공개됐습니다. 그래서 M2.7도 당연히 오픈될 거라고 생각하기 쉽습니다. 실제로 MiniMax 공식 발표문에서 “오픈소스 모델 중 GDPval-AA ELO 최고”라는 표현을 씁니다.

하지만 VentureBeat 보도를 보면, M2.7은 현재 클로즈드 프로프라이어터리(proprietary) 모델입니다. (출처: VentureBeat, 2026.03.19) 오픈소스 모델 비교에서 최고라는 표현은, M2.7 자신이 아니라 비교 대상군(오픈소스 모델들) 사이에서 M2.7이 가장 높다는 뜻입니다. MiniMax가 나중에 가중치를 공개할 가능성은 있지만, 2026.03.21 기준으로는 로컬 실행이 불가능합니다.

💡 M2.7 공식 발표문과 실제 공개 상태를 나란히 보면 이런 차이가 생깁니다 — 발표문에서 “오픈소스 모델 중 1위”라고 쓴 문장은, M2.7이 오픈소스라는 뜻이 아니라 오픈소스 모델들보다 성능이 높다는 비교 기준에서 나온 표현입니다. M2.5까지의 오픈소스 패턴이 M2.7에도 이어질 거라고 가정했다면, 지금 당장은 다릅니다.

컨텍스트 창: 205K — 하지만 이미지 입력은 없음

Artificial Analysis 비교 데이터에 따르면, M2.7의 컨텍스트 창은 205K 토큰(A4 약 307페이지 분량)으로 Claude Opus 4.6(200K)보다 약간 큽니다. 단, 이미지 입력을 지원하지 않습니다. Claude Opus 4.6은 이미지 입력이 됩니다. (출처: Artificial Analysis, 2026.03.21) 멀티모달 작업이 필요하면 다른 모델을 봐야 합니다.

▲ 목차로 돌아가기

실제로 쓸 수 있는 진입점과 요금 구조

M2.7에 접근하는 방법은 두 가지입니다. MiniMax Agent 플랫폼(agent.minimax.io)을 통해 코딩 없이 바로 쓰거나, API(platform.minimax.io)를 통해 직접 연동하는 방식입니다. Claude Code, Cursor, Cline, Roo Code, Kilo Code, Grok CLI, Codex CLI 등 11개 이상의 도구에 공식 연동 문서가 준비돼 있습니다. (출처: MiniMax 공식 플랫폼 문서, 2026.03.18)

Anthropic SDK를 쓰는 환경이라면 ANTHROPIC_BASE_URL만 MiniMax 엔드포인트로 바꾸면 됩니다. 설정 변경 없이 Claude 코드베이스에서 M2.7을 바로 쓸 수 있다는 뜻입니다.

토큰 플랜 요금표 (2026.03.18 기준)

플랜	월정액	5시간당 요청수	연간(절감)
Starter	$10	1,500회	$100 ($20 절감)
Plus	$20	4,500회	$200 ($40 절감)
Max	$50	15,000회	$500 ($100 절감)
Plus-Highspeed	$40	4,500회	$400 ($80 절감)
Ultra-Highspeed	$150	30,000회	$1,500 ($300 절감)

출처: MiniMax 공식 플랫폼 가격 페이지 (platform.minimax.io), 2026.03.18 기준 / 동영상·이미지·음성 등 다른 모달은 요청 소비량이 다를 수 있음

하나의 M2.7 API 호출이 대략 요청 1회에 해당하지만, 영상·이미지·고품질 음성은 여러 요청을 한 번에 소모합니다. 사용 패턴에 따라 실제 소진량이 다르게 나옵니다.

▲ 목차로 돌아가기

이 모델이 맞는 사람, 안 맞는 사람

VentureBeat와 Kilo Code 팀 분석을 교차해보면, M2.7이 잘 맞는 시나리오가 구체적으로 보입니다. 코드베이스 전체를 이해하고 리팩토링하거나, 로그 분석에서 장애 원인을 추적하거나, 재무 모델링처럼 여러 데이터를 교차 분석해서 결과물을 만들어야 할 때입니다. 공식 발표 시연에서는 TSMC 연간 보고서와 실적 발표 자료를 자율적으로 읽고 수익 예측 모델과 PPT를 동시에 만드는 과정을 보여줬습니다. (출처: MiniMax 공식 블로그, 2026.03.18)

반대로 M2.7이 맞지 않는 상황도 있습니다. 빠른 반복이 필요한 바이브코딩이나 단순 코드 스니펫 생성에서는 M2.5나 M2.1이 더 효율적입니다. BridgeBench 결과가 그걸 수치로 증명합니다. 또 로컬 실행이 필요하거나 이미지 분석이 포함된 작업이라면, 지금은 다른 선택지를 봐야 합니다.

💡 Artificial Analysis Intelligence Index 기준으로 M2.7은 전체 309개 모델 중 8위(점수 50)입니다. 1위 Gemini 3.1 Pro Preview(57)와의 차이는 7점이고, 가격 비교에서는 M2.7이 운영 비용 기준으로 글로벌 2위 수준입니다. (출처: Artificial Analysis, 2026.03.21) 최상위 성능을 원한다면 Gemini 3.1이나 GPT-5.4가 여전히 앞서 있고, M2.7은 그 아래 비용 효율 구간에서 자리를 잡았습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. MiniMax M2.7은 지금 무료로 쓸 수 있나요?

MiniMax Agent(agent.minimax.io) 플랫폼을 통해 제한적으로 사용해볼 수 있습니다. 본격적인 API 호출은 토큰 플랜($10/월~) 구독이 필요합니다. OpenRouter를 통한 접근도 가능합니다. 무료 체험 범위는 MiniMax 공식 플랫폼에서 직접 확인하는 것이 정확합니다.

Q2. Claude Code나 Cursor에서 M2.7을 쓸 수 있나요?

됩니다. MiniMax는 Claude Code, Cursor, Cline, Roo Code, Kilo Code, Grok CLI, Codex CLI 등 11개 이상의 도구에 공식 연동 문서를 제공합니다. Anthropic SDK 기반 환경이면 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트로 수정하면 전환됩니다. (출처: MiniMax 공식 플랫폼 문서, 2026.03.18)

Q3. M2.7은 M2.5보다 무조건 낫나요?

복잡한 엔지니어링 태스크와 다중 데이터 처리 작업에서는 M2.7이 앞섭니다. 하지만 바이브코딩(자연어 → 코드 즉시 생성) 방식에서는 BridgeBench 기준으로 M2.5(12위)가 M2.7(19위)보다 높게 나왔습니다. 빠른 이터레이션이 필요한 간단한 작업이라면 M2.5 또는 M2.1이 더 효율적일 수 있습니다.

Q4. M2.7의 오픈소스 가중치 공개는 언제 되나요?

MiniMax가 공식 일정을 밝히지 않은 상태입니다. M2 시리즈 이전 모델들은 API 출시 후 일주일 이상 지나 HuggingFace에 가중치가 올라왔습니다. 같은 패턴이 이어질 가능성은 있지만, M2.7은 현재 완전한 클로즈드 모델로 출시됐고 로컬 실행을 원한다면 아직 기다려야 합니다.

Q5. 기업에서 쓰기에 데이터 보안 문제는 없나요?

MiniMax는 중국 상하이에 본사가 있어 현지 법률의 적용을 받습니다. VentureBeat는 이 점이 미국 및 서방 규제 산업이나 정부 관련 기업에서는 도입 장벽이 될 수 있다고 지적했습니다. (출처: VentureBeat, 2026.03.19) 오프라인 또는 로컬 실행 옵션도 현재는 없는 상태여서, 민감 데이터를 다루는 환경이라면 별도 검토가 필요합니다.

▲ 목차로 돌아가기

마치며

MiniMax M2.7을 총평하자면, “좋은 모델인데 조건이 있습니다”입니다. 복잡한 코드베이스 분석, 다중 데이터 교차 작업, 장기 실행 에이전트 태스크에서는 Claude Opus급 성능을 훨씬 낮은 토큰 단가에 제공합니다. 환각률이 Claude Sonnet 4.6(46%)보다 낮은 34%라는 수치도 실무 관점에서 의미 있는 차이입니다.

하지만 “싸다 = 실제로 덜 나간다”는 공식이 무조건 성립하지는 않습니다. 토큰 소비량이 많아서 단순 작업에서는 오히려 비용이 역전됩니다. 오픈소스 공개도 아직 이루어지지 않았고, 이미지 입력도 지원하지 않습니다. “자기진화 AI”라는 키워드가 흥미롭지만, 실제 선택 기준은 여전히 내 작업이 무엇이냐에 달려 있습니다.

솔직히 말하면, 지금 당장 Claude Code나 Cursor에 물려서 복잡한 리팩토링 작업을 맡기기에는 꽤 매력적입니다. 바이브코딩 스타일로 빠르게 프로토타입을 만드는 작업이라면 아직 M2.5가 낫습니다.

본 포스팅 참고 자료

① MiniMax 공식 M2.7 발표 블로그 — https://www.minimax.io/news/minimax-m27-en (2026.03.18)
② MiniMax 공식 모델 페이지 — https://www.minimax.io/models/text/m27 (2026.03.18)
③ VentureBeat M2.7 심층 분석 — https://venturebeat.com/technology/new-minimax-m2-7-… (2026.03.19)
④ Kilo Code 팀 PinchBench·Kilo Bench 독립 벤치마크 — Reddit/LocalLLaMA (2026.03.19)
⑤ Artificial Analysis Intelligence Index — https://artificialanalysis.ai/models/comparisons/… (2026.03.21 기준)
⑥ MiniMax 공식 API 플랫폼 가격 — https://platform.minimax.io/docs/guides/models-intro (2026.03.18)

본 포스팅은 2026년 3월 21일 기준으로 수집된 공식 자료와 독립 벤치마크 데이터를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. MiniMax M2.7의 가격, 가중치 공개 여부, 플랜 구성은 MiniMax 공식 플랫폼에서 최신 내용을 직접 확인하시기 바랍니다.

MiniMax M2.7, 직접 써봤더니 싸다는 말이 달랐습니다

MiniMax M2.7, 직접 써봤더니
싸다는 말이 달랐습니다

M2.7이 다른 모델과 다른 결정적 이유