Cursor 2.6 기준
IT/AI
Cursor Composer 2, 자체 모델이라는 말이 전부일까요?
2026년 3월 19일, Cursor가 자체 개발 코딩 모델 Composer 2를 공개했습니다. CursorBench 61.3점, Terminal-Bench 2.0 61.7점. 숫자만 보면 전작 Composer 1 대비 압도적입니다. 그런데 출시 직후 개발자 커뮤니티가 들썩였습니다. ‘자체 개발’이라고 했지만, 실제로는 중국 AI 스타트업 Moonshot AI의 오픈소스 모델 Kimi K2.5가 베이스였다는 사실이 밝혀졌기 때문입니다.
Cursor Composer 2가 뭔지, 숫자로 먼저 보겠습니다
Cursor Composer 2는 2026년 3월 19일, Cursor 공식 블로그를 통해 출시된 코딩 에이전트 모델입니다. Cursor가 자사 제품에 내장된 형태로 제공하는 ‘자체 개발 모델’이며, 기존에 Claude, GPT-4o 같은 서드파티 모델을 선택하는 방식과 달리 Cursor 플랫폼 안에서만 작동합니다. (출처: Cursor 공식 블로그, 2026.03.19)
전작 세대와 비교하면 차이가 꽤 명확합니다. Cursor가 공식 발표에서 공개한 CursorBench 기준 수치는 아래와 같습니다.
| 모델 | CursorBench | Terminal-Bench 2.0 | SWE-bench Multi |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
| Composer 1 | 38.0 | 40.0 | 56.9 |
출처: Cursor 공식 블로그 — Composer 2 발표, 2026.03.19
Composer 1과 비교하면 CursorBench 기준 61.3%로, 전작(38.0) 대비 약 61% 향상입니다. 이 수치 자체는 인상적입니다. 그런데 이 점수를 어떻게 해석해야 하는지가 중요합니다.
CursorBench 61.3점의 의미, 공개 벤치마크와 다릅니다
Cursor Composer 2의 성능 수치를 볼 때 놓치기 쉬운 게 있습니다. CursorBench는 공개 벤치마크가 아닙니다. Cursor 팀이 자사 엔지니어의 실제 코딩 세션을 기반으로 직접 설계한 내부 평가 지표입니다. (출처: Cursor Blog — CursorBench 소개)
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Cursor는 공식적으로 “SWE-bench 같은 공개 벤치마크는 모델 학습 데이터에 포함되어 점수가 부풀려질 수 있다”고 직접 밝혔습니다. 심지어 OpenAI도 2026년 초 SWE-bench Verified 결과 보고를 완전히 중단했습니다. Cursor의 자체 벤치마크가 더 신뢰할 수 있다는 주장에는 그럴듯한 근거가 있습니다. 동시에 ‘자사가 만든 기준으로 자사 모델을 평가한다’는 구조적 한계도 있습니다.
CursorBench가 공개 벤치마크보다 실제 개발자 경험과 더 잘 맞는다는 근거로, Cursor는 온라인·오프라인 교차 검증 방식을 씁니다. 오프라인(CursorBench)에서 높은 점수를 받아도 실제 사용에서 퇴화가 감지되면 별도 실험을 진행합니다. 이 구조는 타당합니다만, 외부에서 재현하거나 검증할 수 없다는 점은 그대로입니다.
정리하면 이렇습니다. CursorBench 61.3점이 ‘실제로 코드를 더 잘 짠다’는 뜻인 건 맞지만, 그 수치를 GPT-5나 Claude Opus와 직접 비교하는 건 적절하지 않습니다. 다른 자로 잰 값이기 때문입니다.
요금 구조: 두 가지 버전이 존재합니다
Composer 2는 Standard와 Fast, 두 가지 버전으로 제공됩니다. 공식 문서(cursor.com/docs/models/cursor-composer-2)에 명시된 요금은 다음과 같습니다.
| 버전 | 입력 토큰 1M당 | 출력 토큰 1M당 | 기본 설정 |
|---|---|---|---|
| Fast (빠른 버전) | $1.50 | $7.50 | ✓ 기본값 |
| Standard (표준 버전) | $2.50 | — | 선택 사항 |
출처: Cursor 공식 문서 — Composer 2 모델, 2026.03.19
💡 공식 문서를 직접 보고 나서 달리 보이는 부분이 있었습니다.
블로그 발표문과 공식 문서 사이에 수치 차이가 있습니다. 발표 블로그에는 Standard가 “입력 100만 개당 $2.50″로 표기됐지만, 공식 문서(docs)에는 Fast 기준으로 입력 $1.50 / 출력 $7.50로 나와 있습니다. 두 문서가 서로 다른 버전을 기준으로 작성된 것으로 보이며, Cursor가 공식 답변을 별도로 내놓지 않은 부분입니다. API 사용 시에는 반드시 공식 문서의 최신 수치를 직접 확인하는 게 맞습니다.
개인 요금제(Pro)에서는 Composer 사용량이 별도의 풀(Pool)로 구분되어 일반 채팅 한도와는 독립적으로 관리됩니다. 팀·엔터프라이즈 플랜에서는 위 API 단가가 그대로 청구됩니다. 개인 Pro 구독자가 Composer 2를 쓴다고 해서 채팅 메시지 한도가 줄어드는 건 아닙니다.
‘자체 모델’의 속사정 — Kimi K2.5 논란
솔직히 말하면, 이게 이번 포스팅을 쓰게 된 가장 큰 이유입니다. Composer 2 출시 직후, 해외 개발자 커뮤니티에서 이상한 점이 발견됐습니다. 모델에 특정 방식으로 질문했을 때, 응답 패턴이 Moonshot AI의 오픈소스 모델인 Kimi K2.5와 일치한다는 것이었습니다.
⚠️ 논란의 핵심
커뮤니티 조사 결과, Cursor가 Composer 2를 Kimi K2.5를 베이스로 개발한 사실이 드러났습니다. Cursor 공동창업자는 이를 인정하고 “앞으로는 베이스 모델을 공개하겠다”고 사과했습니다. Cursor 측 추산으로는 Kimi K2.5 기반 위에 약 75% 수준의 자체 파인튜닝이 이뤄진 것으로 알려졌습니다. (출처: Threads @dev_seochan, 2026.03.22 / MindStudio Blog, 2026.03)
여기서 중요한 게 뭔지 짚겠습니다. 오픈소스 모델을 베이스로 쓰는 것 자체는 업계에서 흔한 일입니다. Meta Llama, Alibaba Qwen, Mistral 모두 같은 방식으로 쓰입니다. Kimi K2.5는 코딩 벤치마크에서 GPT-4o에 근접하는 성능을 내는 모델이고, 상업 이용이 허용된 라이선스로 공개됐습니다.
문제는 ‘사용’이 아니라 ‘침묵’이었습니다. Cursor는 Composer 2를 발표하면서 “자체 사전학습과 강화학습을 거친 모델”이라는 표현을 썼습니다. 베이스 모델에 대한 언급은 없었습니다. 월 $20을 내는 사용자 입장에서는 완전히 독자 개발된 모델이라고 이해할 수밖에 없는 구조였습니다.
💡 라이선스 컴플라이언스와 사용자 신뢰는 다른 문제입니다.
MindStudio 분석에 따르면, Kimi K2.5 라이선스는 README나 문서에 출처를 표기하는 수준을 요구합니다. 제품 UI에 “Powered by Kimi”를 띄울 의무는 없습니다. 즉, 법적 컴플라이언스는 충족했을 가능성이 높습니다. 그러나 사용자에게 어떤 AI를 쓰는지 알 권리를 줬느냐는 별개의 질문입니다. 이 둘의 간격이 이번 논란의 본질이었습니다. (출처: MindStudio Blog)
이 논란이 Cursor만의 문제는 아닙니다. 같은 관행이 AI 업계 전반에 퍼져 있습니다. Cursor가 유독 주목받은 건 커뮤니티가 증거를 잡았고, 반응이 빠르게 확산됐기 때문입니다.
탭 키는 이제 거의 죽었습니다 — Cursor가 공개한 내부 수치
Composer 2 출시와 함께 Cursor는 “소프트웨어 개발의 세 번째 시대”라는 블로그 글도 함께 발표했습니다. 여기에 꽤 놀라운 내부 수치가 담겨 있습니다.
💡 수치를 나란히 놓으면 방향이 보입니다.
- 2025년 3월: Tab(자동 완성) 사용자 수 = 에이전트 사용자 수의 약 2.5배
- 2026년 2월 기준: 에이전트 사용자 수 = Tab 사용자 수의 약 2배
- 내부 PR 기준: Cursor 팀이 머지하는 PR의 35% 이상이 클라우드 에이전트가 생성한 것
출처: Cursor Blog — AI 소프트웨어 개발의 세 번째 시대, 2026.02.26
이 수치가 중요한 이유는 뭘까요. 기대했던 것과 달랐습니다. 많은 사람이 AI 코딩 도구를 ‘더 빠른 자동완성’으로 이해합니다. 그런데 1년 만에 사용 패턴이 완전히 반전됐습니다. 이제 대부분의 Cursor 사용자가 에이전트에 작업 단위로 넘기는 방식을 선호한다는 뜻입니다.
Composer 2는 바로 이 흐름을 겨냥해 나온 모델입니다. 수백 번의 동작이 필요한 장시간 작업을 스스로 이어가도록 설계됐습니다. Cursor의 공식 기술 문서에서는 “학습 중 self-summarization을 통해 장기적인 작업에 강하다”고 명시합니다.
지난 1년 동안 Cursor의 에이전트 사용량은 15배 이상 증가했습니다. (출처: Cursor Blog, third-era) 이 숫자 하나가 Cursor가 왜 Composer 2를 만들었는지를 설명해줍니다.
Composer 2를 지금 써볼 가치가 있는지 직접 판단하는 법
막상 해보면 다릅니다. Reddit의 실사용 후기를 보면 “Kimi랑 Composer 2는 평가에서 차이가 크고, 실제 써보면 전작보다 낫다”는 반응이 주를 이룹니다. 논란이 있었지만 성능 자체는 쓸 만하다는 평가입니다. (출처: r/cursor, 2026.03.21)
어떤 경우에 Composer 2가 유리한지, 아닌지를 정리했습니다.
✅ 이런 경우라면 효과적입니다
- 여러 파일에 걸친 리팩토링 작업
- 테스트 코드 작성을 에이전트에 위임할 때
- 기능 구현을 프롬프트 한 번으로 끝내고 싶을 때
- 이미 Cursor Pro를 쓰고 있어서 추가 비용 없는 경우
⚠️ 이런 경우라면 한 번 더 생각해보세요
- 베이스 모델 투명성이 중요한 기업 환경
- API 직접 사용 시 단가 최적화가 핵심일 때
- 팀·엔터프라이즈 플랜이라 API 단가 직접 청구되는 경우
- Claude Opus나 GPT-5.4를 이미 별도 구독 중인 경우
이 부분이 좀 아쉬웠습니다. Cursor Pro 월 $20 안에 Composer 사용량 풀이 별도로 포함되므로, 개인 구독자 입장에서는 추가 비용 없이 Composer 2를 써볼 수 있습니다. 그러나 팀 플랜에서는 사용한 만큼 위 API 단가가 그대로 청구됩니다. 요금 구조를 미리 파악하지 않으면 월말에 예상치 못한 청구서를 받을 수 있습니다.
Q&A — 자주 묻는 것들
마치며
Cursor Composer 2는 성능 면에서 전작을 확실히 앞섭니다. CursorBench 61.3점, 에이전트 방식에 최적화된 구조, 빠른 버전의 합리적 단가. 써볼 이유는 충분합니다.
그런데 Kimi K2.5 논란은 단순히 Cursor의 실수가 아닙니다. AI 업계 전반이 오픈소스 모델을 어떻게 쓰고, 사용자에게 어디까지 알려야 하는지에 대한 기준이 없다는 걸 보여준 사건입니다. 이 이야기가 중요한 이유는 지금 쓰는 AI 도구가 어떤 베이스로 돌아가는지, 그리고 그 사실이 서비스 가격과 신뢰에 어떤 영향을 미치는지를 직접 생각해보게 만들기 때문입니다.
생각보다 간단합니다. Cursor Pro를 이미 쓰고 있다면 Composer 2는 그냥 켜보면 됩니다. 추가 비용 없이 써볼 수 있습니다. 단, 팀 플랜이라면 API 단가를 먼저 확인하세요.
✅ 핵심 요약
- Composer 2: CursorBench 61.3, 전작 대비 39~61% 향상 (출처: Cursor 공식 블로그)
- Fast(기본값) 요금: 입력 $1.50 / 출력 $7.50 (토큰 1M당)
- 개인 Pro: 별도 Composer 풀로 추가 비용 없음 / 팀 플랜: API 단가 직접 청구
- 베이스 모델: Moonshot AI Kimi K2.5 + 자체 파인튜닝(약 75% 추정)
- 에이전트 사용량 1년간 15배 성장, Tab 사용자보다 에이전트 사용자가 2배 많아짐
📚 본 포스팅 참고 자료
본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금 및 기능 관련 최신 정보는 Cursor 공식 사이트를 직접 확인하세요.











댓글 남기기