Kimi K2.5, Claude Opus 4.6의 10분의 1 가격에 코딩 벤치마크를 넘겼습니다

Published on

2026년 3월 28일

2026.03.28 기준 · Kimi K2.5 공식 릴리스 (2026.01.27)

Kimi K2.5, Claude Opus 4.6의 10분의 1 가격에 코딩 벤치마크를 넘겼습니다

Cursor가 Composer 2를 발표하면서 숨겼던 사실 — 이 모델의 베이스는 중국 스타트업 Moonshot AI의 Kimi K2.5입니다. 공식 벤치마크 수치와 라이선스 논란을 같이 놓고 보니, 알려진 것보다 훨씬 복잡한 그림이 나왔습니다.

총 파라미터 1조 개 · 활성화 32B

컨텍스트 256K 토큰

Modified MIT 라이선스

HuggingFace 오픈웨이트 공개

Kimi K2.5가 갑자기 주목받은 이유

2026년 3월 19일, Cursor는 자사 블로그에서 Composer 2를 “프런티어급 코딩 지능”이라고 소개했습니다. 발표 당일에는 특별히 언급된 것이 없었는데, 사흘 뒤인 3월 22일 X에서 Fynn이라는 개발자가 프록시 트래픽을 덤프해서 모델 ID를 꺼내 보니 kimi-k2p5-rl-0317-s515-fast라고 찍혀 있었습니다. 쉽게 말해 모델 이름을 바꾸지도 않은 채 그대로 서빙하고 있었던 것입니다.

Cursor의 공동창업자 Aman Sanger는 당일 X에서 “처음 블로그에 Kimi 기반이라고 밝혔어야 했는데 빠졌다. 다음 모델부터는 고치겠다”고 인정했습니다. (출처: Aman Sanger X 포스트, 2026.03.22) 이 한 줄이 역설적으로 Kimi K2.5에 대한 관심을 폭발시켰습니다.

Kimi K2.5는 중국 스타트업 Moonshot AI가 2026년 1월 27일 공식 출시한 오픈웨이트 멀티모달 AI 모델입니다. Alibaba와 HongShan(구 세쿼이아 차이나)의 투자를 받고 있으며, 모델 가중치와 코드 저장소 모두 HuggingFace와 GitHub에 공개되어 있습니다. (출처: Moonshot AI 공식 HuggingFace, 2026.01.27)

▲ 목차로 돌아가기

MoE 1조 파라미터인데 추론 비용은 낮은 이유

Kimi K2.5의 아키텍처를 공식 문서 그대로 정리하면 이렇습니다. 총 파라미터는 1조 개지만, 실제 추론 시 활성화되는 파라미터는 320억 개(32B)에 불과합니다. MoE(Mixture-of-Experts) 구조 덕분입니다. 토큰 하나당 384개 전문가 중 8개만 골라 쓰기 때문에 전체를 돌리는 것과 성능은 비슷하면서 연산량은 32B 수준으로 내려갑니다. (출처: MoonshotAI/Kimi-K2.5 GitHub, 2026.01.27)

항목	수치
아키텍처	MoE (Mixture-of-Experts)
총 파라미터	1조 개 (1T)
활성화 파라미터	32B
전문가 수	384개 (토큰당 8개 활성화)
컨텍스트 길이	256K 토큰
어텐션 방식	MLA (Multi-Latent Attention)
비전 인코더	MoonViT (4억 파라미터)

추론 비용이 낮아도 성능이 유지되는 이유가 바로 여기 있습니다. MoE는 전체를 다 쓰는 게 아니라 필요한 전문가만 불러씁니다.

▲ 목차로 돌아가기

HLE 도구 활용 50.2%, GPT-5.2를 이긴 항목이 있습니다

💡 공식 벤치마크 수치와 발표 기록을 함께 놓고 보니 일반적인 소개 글과 다른 면이 보였습니다.

“Kimi K2.5 Thinking + 도구 활용” 조건에서 HLE 50.2% — GPT-5.2(45.5%), Claude 4.5 Opus(43.2%)보다 높습니다.

HLE(Humanity’s Last Exam)는 전통적으로 이미 훈련된 정보로 처리하는 폐쇄형 벤치마크입니다. 그런데 도구(검색·코드 인터프리터·웹 브라우징)를 붙인 오픈 조건에서 Kimi K2.5 Thinking이 50.2%를 기록했는데, 같은 조건 GPT-5.2는 45.5%였습니다. (출처: MoonshotAI/Kimi-K2.5 GitHub 공식 벤치마크 표, 2026.01.27) 이 수치가 의미하는 건 단순합니다 — 복잡한 에이전트 작업에서 Kimi가 GPT-5.2보다 더 잘 썼습니다.

코딩 쪽도 확인해봤습니다. SWE-bench Multilingual 기준으로 Kimi K2.5는 73.0%입니다. Claude 4.5 Opus가 77.5%로 앞서고, GPT-5.2도 72.0%로 엇비슷합니다. 절대 최강이 아니라는 뜻인데, Cursor가 자체 RL 훈련을 얹은 Composer 2 기준으로는 73.7%까지 올라갑니다. (출처: cursor.com/blog/composer-2, 2026.03.19)

벤치마크	Kimi K2.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro
HLE (도구 활용)	50.2%	45.5%	43.2%	45.8%
SWE-bench Multilingual	73.0%	72.0%	77.5%	65.0%
SWE-bench Verified	76.8%	80.0%	80.9%	76.2%
BrowseComp (Agent Swarm)	78.4%	—	—	—
LiveCodeBench v6	85.0%	—	82.2%*	87.4%*

* 공식 리더보드 또는 자체 환경 재현값. (출처: MoonshotAI/Kimi-K2.5 GitHub 공식 벤치마크, 2026.01.27)

모든 지표에서 1위가 아닙니다. 단, 도구를 붙인 에이전트 작업에서 GPT-5.2를 앞서는 영역이 실제로 존재합니다.

▲ 목차로 돌아가기

Cursor Composer 2 사태 — 논란의 실제 구조

💡 처음에 많은 사람들이 “Cursor가 Kimi를 무단으로 도용했다”고 봤지만, 공식 발표문과 실제 흐름을 같이 놓고 보니 상황이 달랐습니다.

Cursor VP Lee Robinson은 3월 22일 X를 통해 “Composer 2의 최종 모델에 들어간 전체 컴퓨팅 중 약 1/4만 베이스(Kimi K2.5)에서 왔고, 나머지 3/4는 자체 훈련에서 나왔다”고 밝혔습니다. (출처: TechCrunch, 2026.03.22) 이 수치가 오히려 역설적입니다 — 오픈소스 모델을 기반으로 자체 RL 훈련에 3배 더 많은 컴퓨팅을 썼다는 뜻이기도 합니다.

Kimi 공식 계정도 같은 날 “Fireworks AI를 통한 인가된 상업 파트너십으로 사용한 것”이라고 X에 게시하며 라이선스 위반이 아님을 확인했습니다. (출처: Kimi_Moonshot X 포스트, 2026.03.22) 기술적인 라이선스 위반 여부는 회색지대지만, 파트너십 자체는 존재했습니다.

가격 차이가 논란보다 더 중요한 이유

Business Insider가 계산한 수치를 직접 따라해봤습니다. Cursor Composer 2는 입력 100만 토큰당 $0.50, 출력 100만 토큰당 $2.50입니다. Claude Opus 4.6은 입력 $5, 출력 $25입니다. (출처: businessinsider.com, 2026.03.23 / cursor.com 공식 가격표)

계산식 (출력 100만 토큰 기준):
Composer 2: $2.50
Claude Opus 4.6: $25 (정확히 10배)
→ 동일 출력량에서 비용 차이 최대 10배

비용이 10분의 1이면서 코딩 벤치마크가 유사한 수준이라면, Cursor 입장에서 기반 모델을 선택한 이유는 분명합니다.

▲ 목차로 돌아가기

Modified MIT 라이선스, 상업 서비스에 그냥 써도 될까요

Kimi K2.5는 Modified MIT 라이선스로 배포됩니다. 기본 MIT와 다른 핵심은 귀속(attribution) 요구 조항입니다. 상업적 배포나 서비스에 사용할 경우 Moonshot AI의 크레딧을 명시해야 한다는 내용이 포함되어 있습니다. (출처: MoonshotAI/Kimi-K2.5 GitHub LICENSE, 2026.01.27)

그런데 “배포(distribution)”의 범위가 지금 AI 라이선스 체계에서 가장 큰 회색지대입니다. 모델 가중치를 직접 나눠주는 게 배포인지, 서버에서 추론 결과를 API로 내보내는 것도 배포에 해당하는지는 현행 법원 판례가 없습니다. Cursor는 후자 방식으로 서비스하면서 귀속을 적지 않았습니다. MindStudio의 공식 분석에 따르면, 대부분의 오픈웨이트 라이선스는 이 케이스를 명확히 다루지 않는다고 정리하고 있습니다. (출처: mindstudio.ai 공식 블로그, 2026.03.23)

🔍 실제로 귀속을 명시했다면 어떻게 보여야 했을까요?

제품 문서에 “Composer 2는 Moonshot AI의 Kimi K2.5를 기반으로 합니다”라는 문구 한 줄, 그리고 라이선스 링크 하나면 충분했습니다. 작업량으로는 10분도 안 걸립니다. Cursor가 이를 넣지 않은 것은 법적 위반 여부와 무관하게 커뮤니티 신뢰를 훼손하는 선택이었습니다.

Kimi K2.5를 자신의 서비스나 프로덕트에 직접 연동하려는 경우, 최소한 아래 세 가지를 확인해야 합니다.

공식 라이선스 파일 원문 확인 (GitHub MoonshotAI/Kimi-K2.5/blob/master/LICENSE)
사용자 대상 제품이라면 귀속 문구를 문서에 명시
Fireworks AI나 공식 API를 통해 사용할 경우 각 플랫폼의 추가 약관도 별도 확인

▲ 목차로 돌아가기

직접 쓰기 전에 확인해야 할 실제 한계

💡 벤치마크 수치 외에 실제 배포 환경에서 나오는 제약들이 있습니다. 공식 문서에 나와 있지만 소개 글에서 보기 힘든 부분들입니다.

Thinking 모드와 비디오 입력은 공식 API에서만

Kimi K2.5를 vLLM이나 SGLang 같은 오픈소스 인퍼런스 엔진으로 직접 띄우면 비디오 입력이 현재 지원되지 않습니다. 공식 API에서만 실험적으로 열려 있습니다. Thinking 모드도 마찬가지로 일부 설정 방식이 공식 API 전용입니다. (출처: MoonshotAI/Kimi-K2.5 HuggingFace 공식 문서, 2026.01.29 업데이트)

SWE-bench Coding은 Thinking 모드가 아닌 Instant 모드로 기록

공식 벤치마크 각주에 따르면, SWE-bench 시리즈 코딩 점수는 Thinking 모드가 아닌 Instant(비추론) 모드에서 측정했습니다. Thinking 모드는 현재 컨텍스트 관리 전략이 Terminal-Bench 2.0의 기본 에이전트 프레임워크와 호환되지 않아 적용하지 못했다고 공식 문서에 별도 이유 없이 서술되어 있습니다. (출처: MoonshotAI/Kimi-K2.5 GitHub 공식 벤치마크 각주 5번) 코딩 수치를 보고 Thinking 모드에서도 동일하게 나올 것으로 기대하면 다를 수 있습니다.

데이터 거버넌스 — 중국 기업이라는 조건

Moonshot AI는 중국 기업입니다. 공식 API를 통해 데이터를 보내면 그 데이터가 어떤 규제 환경에 놓이는지를 별도로 확인해야 합니다. Business Insider가 지적한 것처럼, 미국-중국 AI 경쟁 구도 속에서 Cursor가 Kimi 사용을 처음에 밝히지 않은 이유 중 하나로 이 부분이 언급됩니다. (출처: businessinsider.com, 2026.03.23) 규정 준수 요건이 있는 환경이라면 오픈웨이트를 다운받아 직접 호스팅하는 방식을 검토하는 게 낫습니다.

▲ 목차로 돌아가기

Q&A

Q. Kimi K2.5와 Cursor Composer 2는 같은 모델인가요?

Kimi K2.5는 Composer 2의 출발점(베이스 모델)입니다. Cursor가 자체 RL 훈련을 얹어 별도의 모델을 만들었으며, 최종 컴퓨팅의 약 3/4는 Cursor 자체 훈련에서 나왔다고 Cursor VP가 공식 발표했습니다. (출처: TechCrunch, 2026.03.22) SWE-bench Multilingual 기준으로 Kimi K2.5 73.0%, Composer 2 73.7%로 소폭 차이가 납니다.

Q. Kimi K2.5는 무료로 쓸 수 있나요?

모델 가중치는 HuggingFace와 GitHub에 공개되어 있고 다운로드는 무료입니다. 단, 로컬 실행에는 최소 수백 GB 이상의 GPU 메모리가 필요합니다 (MoE 1T 파라미터 구조). 공식 API(platform.moonshot.ai)는 유료로 운영되며, NVIDIA Build 플랫폼을 통해 제한적으로 무료 체험이 가능합니다.

Q. Kimi K2.5를 상업 서비스에 쓰면 라이선스 문제가 있나요?

Modified MIT 라이선스는 상업적 사용을 허용하지만 귀속(attribution) 요구사항이 있습니다. 제품 문서에 “Moonshot AI의 Kimi K2.5 기반”이라는 문구와 라이선스 링크를 명시해야 합니다. API 서빙이 배포에 해당하는지는 법적으로 명확히 정리되지 않은 상태이며, 이유는 아직 공개되지 않았습니다. 안전하게 가려면 문서에 명시하는 편이 낫습니다.

Q. Kimi K2.5가 Claude Opus 4.6보다 낫다고 봐야 하나요?

항목마다 다릅니다. 도구를 붙인 HLE 에이전트 작업에서는 Kimi K2.5 Thinking이 50.2%로 Claude 4.5 Opus 43.2%보다 높지만, SWE-bench Verified 코딩에서는 Claude 4.5 Opus 80.9%가 Kimi 76.8%보다 앞섭니다. (출처: GitHub 공식 벤치마크) 단순히 “어느 모델이 낫다”라는 구도로 보기보다는 용도별로 다르게 접근해야 합니다.

Q. Agent Swarm 기능이 실제로 유용한가요?

Kimi K2.5의 Agent Swarm은 복잡한 작업을 병렬 서브 에이전트로 분해해서 처리하는 구조입니다. BrowseComp 기준으로 단일 에이전트 60.6% → 컨텍스트 관리 포함 74.9% → Agent Swarm 78.4%로 올라갑니다. (출처: GitHub 공식 벤치마크) 장시간, 다중 도메인 검색·분석 작업에 유리하며, 단일 질문 응답에서는 단순 Thinking 모드와 큰 차이가 없을 수 있습니다.

▲ 목차로 돌아가기

마치며

Kimi K2.5는 “중국 오픈소스 모델”이라는 타이틀 때문에 처음엔 Cursor 논란의 부산물처럼 취급됐지만, 벤치마크 수치를 직접 들여다보면 에이전트 검색과 멀티모달 작업에서 실제로 경쟁력이 있습니다. 특히 도구를 붙인 HLE에서 GPT-5.2를 넘긴 건 단순한 수치 이상의 의미가 있습니다 — 닫힌 평가보다 열린 에이전트 환경에서 강하다는 뜻입니다.

Cursor 논란에서 진짜 주목할 부분은 “중국 모델을 썼다는 것”이 아닙니다. 오픈소스 생태계에서 귀속 표시 하나를 빠뜨렸을 때 어떤 신뢰 비용이 발생하는지를 2026년 3월에 가장 선명하게 보여준 사례라는 점입니다. 앞으로 오픈웨이트 모델을 제품에 연동하려는 개발자나 팀이라면 이 사례를 가장 먼저 참고하게 될 것 같습니다.

직접 사용할 계획이라면 Modified MIT 라이선스 원문 확인, 귀속 문구 삽입, 그리고 데이터 거버넌스 세 가지를 먼저 챙기면 됩니다. 이 세 가지만 지키면 기술적으로는 꽤 쓸 만한 선택지입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

MoonshotAI/Kimi-K2.5 공식 HuggingFace — https://huggingface.co/moonshotai/Kimi-K2.5
MoonshotAI/Kimi-K2.5 GitHub 공식 저장소 — https://github.com/MoonshotAI/Kimi-K2.5
Cursor 공식 블로그 — Composer 2 발표 — https://cursor.com/blog/composer-2
TechCrunch — Cursor admits Composer 2 built on Kimi K2.5 — techcrunch.com
Business Insider — Cursor’s coding model has Chinese roots — businessinsider.com
MindStudio 공식 블로그 — Cursor Composer 2 오픈소스 귀속 분석 — mindstudio.ai

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Kimi K2.5 및 Cursor Composer 2의 가격, 벤치마크 수치, 라이선스 조항은 각 공식 채널을 통해 최신 정보를 직접 확인하세요. 본 포스팅의 수치는 2026.03.28 기준 공식 문서를 기반으로 작성되었습니다.

AI 코딩 모델, Cursor Composer 2, 오픈웨이트 AI, Kimi K2.5, Moonshot AI

Kimi K2.5, Claude Opus 4.6의 10분의 1 가격에 코딩 벤치마크를 넘겼습니다

Kimi K2.5, Claude Opus 4.6의 10분의 1 가격에 코딩 벤치마크를 넘겼습니다

Kimi K2.5가 갑자기 주목받은 이유

MoE 1조 파라미터인데 추론 비용은 낮은 이유

HLE 도구 활용 50.2%, GPT-5.2를 이긴 항목이 있습니다