Cursor Composer 2, 이 수치가 실제와 다릅니다
“프런티어급”이라는 발표와 달리, Composer 2는 Kimi K2.5를 베이스로 만든 모델이었습니다.
공식 기술 보고서와 실사용 피드백을 나란히 놓으니 벤치마크가 말해주지 않는 부분이 보였습니다.
발표는 화려했지만, 처음 밝히지 않은 게 있었습니다
Cursor Composer 2는 2026년 3월 19일 출시됐습니다. 공식 발표문 제목은
“프런티어급 코딩 지능”이었고, CursorBench에서 61.3점이라는 수치를 전면에 내세웠습니다.
(출처: Cursor 공식 블로그, 2026.03.19)
그런데 발표 직후, X(트위터)에서 한 사용자가 Composer 2의 모델 ID에서 “Kimi”가 그대로 노출된다는 걸 발견했습니다.
결국 Cursor 측은 이틀 만에 사실을 인정했습니다. Composer 2의 베이스 모델은 중국 AI 기업 Moonshot AI의
오픈소스 모델 Kimi K2.5였습니다.
(출처: TechCrunch, 2026.03.22)
Cursor의 공동 창업자 Aman Sanger는 “처음부터 Kimi 베이스를 언급하지 않은 것은 실수였다”고 직접 인정했습니다.
기술 보고서에는 베이스 모델 선정 근거가 적혀 있었지만, 일반 발표문과 Changelog에는 한 줄도 없었습니다.
CursorBench 61.3점이 실제로 어떤 의미인가요
Cursor가 내세우는 CursorBench는 Cursor 엔지니어링 팀의 실제 코딩 세션에서 추출한 내부 벤치마크입니다.
공개 벤치마크인 SWE-bench Verified 대비 과제 당 코드 변경 중앙값이 181줄 vs 7~10줄로,
훨씬 어렵게 설계됐습니다.
(출처: Composer 2 Technical Report, 2026.03.27)
| 모델 | CursorBench | SWE-bench Multi. | Terminal-Bench |
|---|---|---|---|
| Composer 2 | 61.3 | 73.7 | 61.7 |
| Opus 4.6 High | 58.2 | 75.8 / 77.8 | 58.0 / 65.4 |
| GPT-5.4 | 63.9 | 76.8 / — | 66.5† / 75.1 |
| Kimi K2.5 (베이스) | 36.0 | 65.1 / 73.0 | 47.3 / 50.8 |
출처: Composer 2 Technical Report (cursor.com/resources/Composer2.pdf), 2026.03.27
† OpenAI 안전 필터가 일부 태스크를 거부해 해당 태스크는 0점 처리됨
수치를 보면 Composer 2는 CursorBench에서 GPT-5.4(63.9)보다 2.6점 낮습니다.
즉, Cursor 자체 벤치마크에서도 최정상이 아닙니다.
💡 공식 발표문과 기술 보고서 수치를 나란히 놓으니 이런 차이가 보였습니다.
CursorBench는 Cursor가 직접 만든 평가 기준인데, 그 기준에서도 GPT-5.4보다 낮습니다.
반면 SWE-bench Multilingual에서는 Composer 2(73.7)가 Opus 4.6 High(75.8)보다 낮습니다.
어떤 벤치마크에서도 “가장 높다”고 말하기 어렵습니다.
Kimi K2.5를 쓴 게 왜 문제가 됐을까요
Cursor는 기업 가치 293억 달러(약 40조 원), 연 매출 20억 달러를 넘는 회사입니다.
그만한 자금력이면 자체 모델을 처음부터 학습시킬 수 있을 것 같지만, 실제로는 중국 오픈소스 모델을 베이스로 썼습니다.
여기서 중요한 게 있습니다.
기술 보고서를 보면 Kimi K2.5는 1.04조 파라미터, 활성 파라미터 32B의 MoE(Mixture-of-Experts) 모델입니다.
Cursor는 여기에 대규모 지속 사전학습(Continued Pretraining)과 강화학습(RL)을 적용해 Composer 2를 만들었습니다.
총 학습 컴퓨팅 중 Kimi K2.5 베이스에서 온 비중은 약 1/4 수준이라고 Cursor 측이 밝혔습니다.
(출처: TechCrunch, 2026.03.22)
💡 Kimi K2.5 기반이라는 사실을 Cursor는 Changelog에도, 발표문에도 적지 않았습니다.
이건 단순한 실수가 아니라, “자체 개발 모델”이라는 인상을 주려 했다는 해석이 나올 수밖에 없습니다.
미·중 AI 경쟁 구도에서 중국 모델을 베이스로 썼다는 것이 알려지면 기업 이미지에 타격이 갈 수 있다는 판단이 있었을 것입니다.
그러나 Kimi 공식 계정은 오히려 Cursor의 사용을 “공인된 상업 파트너십”이라며 축하했습니다.
오픈소스 모델을 베이스로 활용하고, 그 위에 도메인 특화 학습을 쌓는 방식은 이제 하나의 표준 경로가 되고 있습니다.
숨길 게 아니었다는 뜻입니다.
실제 써본 사람들은 다른 말을 합니다
벤치마크 수치와 별개로, 출시 직후 Reddit r/LLM에 올라온 실사용 후기는 냉정했습니다.
한 사용자는 이렇게 썼습니다.
“계획이나 추론 없이 빠르게 실행부터 하려고 합니다. 중간 복잡도 태스크도 불필요하게 복잡해졌고,
실제로 코드베이스에 개선보다 오류가 더 많이 생겼습니다.”
— Reddit r/LLM, 2026.03.20
“벤치마크 점수는 높은데 실망스럽다”는 반응이 나오는 이유는 CursorBench 자체의 특성에서 찾을 수 있습니다.
기술 보고서에 따르면 CursorBench는 181줄 변경 수준의 복잡한 과제를 측정하지만,
일반 사용자가 매일 하는 작업은 훨씬 짧고 단순한 요청이 대부분입니다.
이런 일상적 태스크에서 Composer 2가 “빠른 실행”을 최적화하도록 학습된 것이 오히려 역효과를 낼 수 있습니다.
💡 Cursor가 직접 밝힌 것입니다: 기술 보고서에는 학습 데이터의 40%가 “Iterate On Feature” 반복 작업이고,
Debugging, New Feature, Understanding Codebase 순으로 구성됐다고 나옵니다.
(출처: Composer 2 Technical Report, Figure 3)
일상적인 “짧은 코드 수정” 비율이 낮다는 뜻이고, 그래서 단순 태스크에서 과잉 실행하는 패턴이 나올 수 있습니다.
$20 Pro 플랜 쓰면 Composer 2를 얼마나 쓸 수 있나요
공식 가격을 직접 계산해 봤습니다.
Composer 2 API 가격 (공식 Changelog, 2026.03.19 기준)
- Standard: 입력 $0.50/M 토큰 · 출력 $2.50/M 토큰
- Fast (기본): 입력 $1.50/M 토큰 · 출력 $7.50/M 토큰
그런데 공식 문서에는 이런 내용도 있습니다.
“개인 플랜에서는 Composer 사용량이 별도의 사용량 풀(usage pool)에 포함되며,
넉넉한 기본 제공량이 있습니다.”
즉, $20 Pro 플랜 구독자는 Composer 2를 API 가격으로 직접 소진하는 게 아니라,
Cursor가 정한 별도 풀 안에서 소비합니다. “넉넉한 기본 제공량”이 구체적으로 몇 토큰인지 Cursor는
공식 답변을 내놓지 않은 부분입니다.
💡 Fast 버전($7.50/M 출력)을 기준으로 하면, 하루 5번 100k 토큰 작업을 하면 월 약 $11.25의 출력 비용이 발생합니다.
계산식: 5회 × 100,000토큰 × $7.50/1,000,000 × 30일 = $11.25.
이 정도면 Pro 플랜 포함 사용량 풀 안에 들어올 가능성이 높습니다.
하지만 장시간 에이전트 작업(수백 번 도구 호출)을 매일 하면 풀을 빠르게 소진할 수 있습니다.
실제로 기존 BugBot Autofix 등과 달리, Composer 2는 장기 작업(long-horizon task)용으로 설계됐습니다.
기술 보고서에 따르면 하나의 작업에 수백 번의 tool call이 발생할 수 있고,
이 경우 컨텍스트 길이가 256k 토큰에 달합니다.
하루 한두 번 그런 작업을 하면 풀 소진 속도는 예상보다 빠를 수 있습니다.
공식 발표문과 실제 흐름을 같이 놓고 보니 보인 것들
오픈소스 위에 RL을 쌓는 게 이제 표준 경로입니다
Cursor의 접근 방식 — 오픈소스 베이스 모델 위에 도메인 특화 지속 사전학습과 대규모 강화학습을 올리는 구조 —
은 사실 요즘 여러 기업이 쓰는 방법입니다.
총 학습 컴퓨팅 중 베이스 모델에서 온 비중이 1/4이고, 나머지 3/4은 Cursor가 독자 투자한 것입니다.
(출처: TechCrunch, 2026.03.22) 이런 구조에서 나온 모델이 전용 학습 없는 Kimi K2.5보다
CursorBench에서 25.3점(36.0 → 61.3) 높다는 건, 도메인 특화 RL의 효과가 실제로 있다는 증거입니다.
💡 기술 보고서에 들어 있는 실제 수치를 보면 이렇습니다.
Kimi K2.5의 CursorBench 점수는 36.0, Composer 2는 61.3.
같은 베이스에서 출발한 두 모델이 25.3점이나 차이가 납니다.
이건 “Kimi를 베낀 게 아니냐”는 비판에 대한 Cursor의 가장 강력한 반박 수치입니다.
자체 벤치마크로 자기를 평가하는 구조의 한계
CursorBench는 “Cursor 엔지니어 팀이 실제 쓴 태스크 기반”이라는 장점이 있지만,
동시에 Cursor가 직접 설계하고 관리하는 벤치마크입니다.
기술 보고서는 “새로운 CursorBench 반복 버전이 지속적으로 개발 중”이라고 쓰고 있는데,
이 말은 모델이 기존 버전에 과적합되면 새 버전으로 교체된다는 뜻이기도 합니다.
그 사이 어느 시점에서 평가됐느냐에 따라 점수가 달라질 수 있습니다.
솔직히 말하면, 현재 공개된 수치만으로는 Cursor Composer 2가 GPT-5.4나 Opus 4.6보다 낫다고 말하기 어렵습니다.
그러나 비용 대비 성능 면에서는 다릅니다. 기술 보고서 Figure 11은 “CursorBench 정확도 대비 추론 비용” 파레토 그래프인데,
Composer 2는 GPT-5.4나 Opus 4.6보다 훨씬 낮은 비용에서 비슷한 정확도를 달성합니다.
가성비 논쟁에서는 유리한 위치입니다.
Q&A
Q1. Composer 2는 Cursor Pro 플랜($20)에서 무료로 쓸 수 있나요?
별도 사용량 풀에 포함된다고 공식 문서에 나와 있습니다. 가벼운 작업은 Pro 플랜 내에서 소화 가능하지만,
수백 번 tool call이 필요한 장시간 에이전트 작업을 자주 하면 풀 초과로 추가 비용이 발생할 수 있습니다.
정확한 풀 크기는 아직 공개되지 않았습니다.
Q2. Kimi K2.5 기반이라는 게 실제 성능에 문제가 되나요?
성능 자체보다는 투명성 문제입니다. Cursor 측은 학습 컴퓨팅의 3/4은 자체 투자분이라고 밝혔고,
Kimi K2.5 베이스 대비 CursorBench 점수가 36.0에서 61.3으로 올랐습니다.
라이선스(오픈소스) 준수 여부도 Moonshot AI 측이 공식 확인했습니다.
Q3. Standard($0.50/M)와 Fast($1.50/M) 중 어떤 버전을 써야 하나요?
Cursor는 Fast를 기본값으로 설정했고, 응답 속도가 중요한 인터랙티브 작업에 권장합니다.
Standard는 배치성·비동기 작업에 적합합니다. 같은 지능 수준이라는 게 공식 설명인데,
실제 품질 차이는 Cursor 측이 공식 비교 데이터를 별도로 내놓지 않은 부분입니다.
Q4. Composer 2 vs GPT-5.4, 코딩 작업에서 실제로 어느 쪽이 낫나요?
CursorBench에서 GPT-5.4(63.9)가 Composer 2(61.3)보다 높습니다. 그러나 비용 측면에서 Composer 2가 유리하고,
Cursor 환경에서 최적화되어 있어 통합 경험은 더 좋을 수 있습니다.
단순 작업에서는 실망 후기도 있어, 작업 복잡도에 따라 결과가 다릅니다.
Q5. Composer 2는 한국어 코드 주석이나 요청 처리도 되나요?
Kimi K2.5 베이스가 다국어를 지원하고, SWE-bench Multilingual에서 73.7점을 기록했습니다.
한국어 요청 처리 자체는 가능하지만, 실제 코딩 태스크의 한국어 특화 성능 비교 데이터는
현재 공개된 자료에 없습니다.
마치며
Cursor Composer 2는 “프런티어급”이라는 타이틀을 달고 나왔지만,
막상 들여다보면 이야기가 좀 더 복잡합니다.
Kimi K2.5를 베이스로 한 것 자체는 문제가 없습니다.
그걸 처음에 밝히지 않은 것이 문제였고, 그 결과 사용자들의 기대와 실제 경험 사이에 간격이 생겼습니다.
성능 수치로 보면 Cursor 자체 벤치마크에서도 GPT-5.4보다 낮고,
실사용에서 단순 태스크 처리에 아쉽다는 후기가 나옵니다.
그럼에도 비용 대비 성능 곡선에서는 유리한 위치에 있고,
Cursor 환경에 최적화된 점은 실제 워크플로에서 장점이 됩니다.
결국 Composer 2를 쓸지 말지는 “복잡한 장시간 에이전트 작업을 Cursor 안에서 주로 하는가”에 달려 있습니다.
그 용도라면 가성비가 좋습니다. 짧은 코드 수정이나 단순 질문 응답이 주목적이라면,
기존 모델 선택지와 비교해서 결정하는 게 낫습니다.
본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 소개
(cursor.com/ko/blog/composer-2) - Cursor Composer 2 Technical Report (PDF, 2026.03.27)
(cursor.com/resources/Composer2.pdf) - TechCrunch — “Cursor admits its new coding model was built on top of Moonshot AI’s Kimi” (2026.03.22)
(techcrunch.com) - Cursor Changelog — Composer 2 (2026.03.19)
(cursor.com/changelog/composer-2) - Reddit r/LLM — “What do you think of the new Composer 2 release by Cursor?” (2026.03.20)
(reddit.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
Cursor Composer 2의 가격, 사용량 풀, 벤치마크 기준은 업데이트에 따라 달라질 수 있으므로,
최신 정보는 cursor.com 공식 문서에서 확인하세요.
본 포스팅은 특정 서비스 가입을 강제하거나 보장하는 내용이 아닙니다.











댓글 남기기