Cursor Composer 2 (2026.03.20)
Kimi K2.5 기반
Cursor Composer 2, 중국산이어도 괜찮을까요?
Cursor가 새 코딩 모델을 출시하면서 베이스 모델 이름을 쏙 빼놨습니다. 며칠 후 외부 개발자가 API 응답에서 model_id를 확인하고 나서야 중국 AI 스타트업 Moonshot AI의 Kimi K2.5가 기반임이 드러났습니다. Cursor 공동창업자 Aman Sanger는 “처음부터 Kimi 베이스를 밝혔어야 했다, 이건 실수였다”고 인정했습니다. (출처: TechCrunch, 2026.03.22)
발표 당일에 무슨 일이 있었나
2026년 3월 20일, Cursor는 공식 블로그에 “프론티어급 코딩 지능”이라는 표현을 앞세우며 Composer 2를 공개했습니다. 벤치마크 수치도 자체 CursorBench 기준 61.3점으로, 직전 모델인 Composer 1.5(44.2점)보다 39% 높았습니다. (출처: Cursor 공식 블로그, 2026.03.20)
문제는 이틀 뒤에 터졌습니다. ‘Fynn’이라는 개발자가 API 프록시를 통해 모델 응답을 덤프하다가 model_id 필드에 Kimi가 적혀 있는 걸 발견했습니다. “모델 ID는 최소한 바꿔놓지”라는 조롱 섞인 X 게시물 하나가 순식간에 수천 번 리포스트됐습니다. (출처: TechCrunch, 2026.03.22)
Cursor 개발자 교육 담당 부사장 Lee Robinson이 당일 공개 인정했습니다. “맞아요, Composer 2는 오픈소스 베이스에서 출발했습니다.” 공동창업자 Aman Sanger도 뒤이어 “처음 블로그에서 Kimi 베이스를 밝히지 않은 건 실수였다”고 직접 사과했습니다. 미국 AI 업계에서 중국산 오픈소스 모델을 기반으로 썼다는 사실이 알려지는 게 부담스러웠을 거라는 분석이 나옵니다. (출처: TechCrunch, 2026.03.22)
성능 수치, 직접 뜯어봤습니다
Cursor가 공개한 벤치마크 세 가지를 나란히 놓으면 이런 결과입니다.
| 모델 | CursorBench | Terminal-Bench 2.0 | SWE-bench Multi |
|---|---|---|---|
| Composer 2 | 61.3 | 61.7 | 73.7 |
| Claude Opus 4.6 | — | 58.0 | — |
| GPT-5.4 | — | 75.1 | — |
| Composer 1.5 | 44.2 | 47.9 | 65.9 |
(출처: Cursor 공식 블로그 / Terminal-Bench 공식 리더보드, 2026.03.20)
Terminal-Bench 2.0에서 Claude Opus 4.6(58.0)을 앞섰지만 GPT-5.4(75.1)에는 13.4점 뒤집니다. “전 분야 1위”가 아니라는 뜻입니다. CursorBench는 Cursor 자체 내부 벤치마크라 외부 검증이 부족하다는 점도 감안해야 합니다.
그럼에도 주목할 지점은 따로 있습니다. 이 모델의 진짜 특기는 단발성 코드 생성이 아니라 “수백 번의 액션이 필요한 장기 태스크”입니다. 레포지토리 전체를 읽고, 수정할 파일을 결정하고, 터미널 명령을 실행하고, 오류를 해석한 뒤 계속 진행하는 식의 흐름에서 설계된 모델입니다. (출처: Cursor 공식 블로그, 2026.03.20)
비용 구조를 계산해봤더니
이게 Composer 2에서 가장 눈에 띄는 부분입니다. 숫자로 직접 비교해보면 차이가 실감납니다.
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) |
|---|---|---|
| Composer 2 Standard | $0.50 | $2.50 |
| Composer 2 Fast | $1.50 | $7.50 |
| Composer 1.5 (전작) | $3.50 | $17.50 |
| Claude Opus 4.6 | $5.00 | $25.00 |
| Claude Sonnet 4.6 | $3.00 | $15.00 |
(출처: Cursor 공식 블로그 / Anthropic 공식 요금 페이지, 2026.03 기준. Business Insider, 2026.03.23)
Composer 2 Standard 기준으로 Claude Opus 4.6 입력 토큰의 10분의 1, 출력 토큰도 정확히 10분의 1 가격입니다. 하루 100만 토큰을 소비하는 팀 기준으로 월 비용이 Opus 4.6 대비 약 90% 줄어드는 셈입니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — Cursor는 Composer 2 Fast를 기본값으로 설정했는데, 이건 Standard보다 3배 비쌉니다. “기본 설정으로 쓰면 Standard 가격”이라고 착각하면 실제 청구액이 달라집니다. Fast가 기본값인 이유는 응답 속도 때문이지만, API 직접 호출 시 Standard로 명시해야 낮은 요금이 적용됩니다.
전작 Composer 1.5 대비로는 Standard 기준 86% 저렴하고, Fast 기준으로도 57% 내려갔습니다. (출처: VentureBeat, 2026.03.20)
공식 발표문과 실제 제한 사항을 같이 놓고 보니 보이는 것들
Cursor 공식 발표문에는 크게 세 가지가 강조됩니다. 프론티어급 성능, 낮은 가격, Cursor 워크플로우와의 긴밀한 통합. 그런데 실제 사용 조건을 읽으면 제한이 생각보다 큽니다.
💡 공식 문서를 실제 사용 흐름과 대조해봤더니 — Composer 2는 Cursor 앱 안에서만 동작합니다. 외부 API 플랫폼이나 OpenRouter 같은 라우터에서 독립적으로 쓸 수 있는 모델이 아닙니다. “Claude Code처럼 터미널에서 바로 쓸 수 없냐”는 질문이 커뮤니티에서 계속 나오는데, 공식 문서에서 별도 이유를 밝히지 않았습니다.
Cursor 전용 모델이라는 게 실제로 어떤 의미인가
모델 문서를 보면 Composer 2는 Cursor의 에이전트 툴 스택 — 시맨틱 코드 검색, 파일 읽기/편집, 셸 명령, 브라우저 제어, 웹 접근 — 과 통합된 방식으로 최적화되어 있습니다. 이건 강점이지만 동시에 Cursor 앱에 종속된다는 의미입니다. (출처: Cursor 공식 모델 문서, 2026.03)
컨텍스트 윈도우는 200,000 토큰입니다. Claude Code 1M이나 Gemini 3.1의 2M 대비 좁습니다. 대규모 레포지토리 전체를 컨텍스트에 담아야 하는 작업에서 이 차이가 실제로 느껴진다는 후기가 Cursor 공식 포럼에 올라와 있습니다. (출처: Cursor 공식 포럼, 2026.03)
CursorBench는 Cursor 내부 기준입니다. 평균 352줄, 8개 파일로 구성된 실제 엔지니어링 태스크 기반이라고 공식 블로그에 밝혔습니다. 다만 이 벤치마크를 제3자가 독립 검증한 결과는 아직 공개되지 않았습니다. (출처: Cursor 공식 블로그, 2026.03.20)
“중국산 모델”이라는 불편함, 실제로 위험할까
솔직히 말하면, 이 논란의 핵심은 성능도 라이선스도 아닙니다. 개발자들이 화가 난 이유는 Kimi K2.5를 썼다는 사실이 아니라 그 사실을 숨겼기 때문입니다. X 커뮤니티 반응을 보면 이 지점이 명확하게 갈립니다.
⚠️ 라이선스 위반 가능성은 실제로 해소됐나요?
Moonshot AI의 X 계정이 직접 “Cursor는 Fireworks AI를 통해 승인된 상업적 파트너십으로 Kimi K2.5를 사용했다”고 게시했습니다. 라이선스 충돌 이슈가 한때 제기됐지만 Moonshot AI 측이 공식 협력 관계임을 확인하면서 일단락됐습니다. (출처: Kimi_Moonshot X 게시물, 2026.03.22)
Kimi K2.5 자체는 어떤 모델인가
Kimi K2.5는 중국 AI 스타트업 Moonshot AI가 2026년 1월 27일 공개한 오픈소스 멀티모달 모델입니다. 알리바바와 HongShan(前 세콰이어 차이나) 지원을 받고 있으며, 텍스트·이미지·영상 총 15조 토큰으로 학습했습니다. SWE-bench Verified에서 Gemini 3 Pro를 앞서고, VideoMMMU에서 Claude Opus 4.5를 넘어섰다고 Moonshot AI가 공개했습니다. (출처: TechCrunch, 2026.01.27)
“$29.3B 짜리 미국 스타트업이 중국 오픈소스를 들고 왔다”는 것 자체가 오픈소스 AI 생태계의 현실을 보여줍니다. Meta의 Llama를 기반으로 수십 개 모델이 나오듯, 오픈소스 기반 파인튜닝은 이미 업계 표준 방식입니다. 이번 논란이 특별했던 건 그 출처가 중국이라는 점이었습니다.
Claude Code나 Codex GPT-5.4랑 뭐가 다를까
Composer 2를 실제로 쓸지 말지 결정할 때 가장 현실적인 비교 대상은 Claude Code와 Codex GPT-5.4입니다.
| 항목 | Composer 2 | Claude Code | Codex GPT-5.4 |
|---|---|---|---|
| 사용 환경 | Cursor IDE 전용 | 터미널(CLI) | 터미널(CLI) |
| 컨텍스트 창 | 200K 토큰 | 1M 토큰 | 약 128K 토큰 |
| Terminal-Bench 2.0 | 61.7 | 58.0 (Opus 4.6) | 75.1 |
| 입력 토큰 단가 | $0.50/M | $5.00/M (Opus 4.6) | 별도 요금 |
| 독립 배포 가능 | ❌ | ✅ | ✅ |
(출처: Cursor 공식 블로그 / Anthropic 공식 요금 페이지 / Terminal-Bench 공식 리더보드, 2026.03 기준)
💡 실제 요금 흐름을 비교해보니 간과하기 쉬운 지점이 있었습니다 — Cursor를 Pro($20/월) 이상으로 구독하면 Composer 사용이 별도 사용 풀에 포함됩니다. API 토큰 요금과 구독 요금이 따로 계산되는 구조입니다. 즉, 구독료 + 사용량 초과분이 동시에 발생할 수 있습니다.
VentureBeat가 정리했듯, Cursor가 직면한 진짜 압박은 모델 품질이 아닙니다. Anthropic과 OpenAI가 직접 코딩 도구(Claude Code, Codex)를 강화하면서 “중간 플랫폼이 필요한가”라는 질문이 커지고 있습니다. Composer 2는 그 질문에 대한 Cursor의 첫 번째 자체 모델 답변입니다. (출처: VentureBeat, 2026.03.20)
Q&A — 자주 나오는 질문 5가지
Q1. Composer 2가 Kimi K2.5를 기반으로 한다면, Moonshot AI 서버를 거치는 건가요?
Cursor는 Fireworks AI를 추론 제공업체로 써서 Kimi K2.5 라이선스를 준수했다고 공식 설명했습니다. 최종 Composer 2는 Cursor가 약 75%의 추가 학습을 거친 모델이라 Moonshot AI 서버를 직접 경유하는 방식이 아닙니다. 다만 정확한 인프라 구조는 공식 문서에서 별도로 밝히지 않았습니다.
Q2. CursorBench 61.3점이 실제로 의미 있는 수치인가요?
CursorBench는 Cursor가 자체 운영하는 내부 벤치마크입니다. 평균 352줄, 8개 파일 기준 실제 코딩 태스크를 기반으로 설계됐다고 밝혔습니다. 제3자가 독립 검증한 결과는 아직 공개되지 않았습니다. Terminal-Bench 2.0(제3자 운영)에서 61.7점을 기록한 건 독립적인 수치라는 점에서 더 참고할 만합니다.
Q3. Cursor 무료 플랜에서도 Composer 2를 쓸 수 있나요?
공식 발표에 따르면 개인 플랜에서 Composer 사용량은 별도 사용 풀에 포함됩니다. 무료 Hobby 플랜의 경우 제한 내에서 체험 가능하지만 세부 한도는 플랜 문서에서 확인이 필요합니다. Cursor Pro($20/월) 이상에서 더 여유로운 사용이 가능합니다. (출처: Cursor 공식 요금 페이지)
Q4. 기본값이 Composer 2 Fast라고 하는데, 요금 차이가 얼마나 나나요?
Standard는 입력 $0.50/M, 출력 $2.50/M이고, Fast는 입력 $1.50/M, 출력 $7.50/M입니다. Fast가 Standard보다 3배 비쌉니다. Cursor가 Fast를 기본값으로 설정한 이유는 응답 속도 때문이라고 밝혔습니다. 비용 최소화가 목적이라면 설정에서 Standard로 직접 변경해야 합니다.
Q5. 다음 Composer 모델에서는 베이스 모델을 처음부터 밝힐까요?
공동창업자 Aman Sanger가 X에서 “다음 모델부터는 처음부터 베이스 모델을 밝히겠다”고 직접 약속했습니다. 또한 “앞으로 풀 프리트레이닝을 진행할 것”이라는 언급도 있었습니다. 약속이 실제로 지켜지는지는 다음 릴리스에서 확인할 수 있을 것입니다.
마치며
Cursor Composer 2를 한 줄로 정리하면 이렇습니다. 성능은 납득할 만하고, 가격은 확실히 싸지고, 숨긴 건 잘못했습니다.
Kimi K2.5를 기반으로 한 게 문제가 아닙니다. 오픈소스를 활용해 좋은 모델을 만드는 건 AI 업계의 일상입니다. 문제는 $29B짜리 회사가 그 사실을 공개 발표에서 쏙 빼놓았다는 겁니다. 개발자 커뮤니티의 신뢰는 그 순간 타격을 입었습니다.
성능 면에서는 Terminal-Bench 2.0 기준으로 Claude Opus 4.6을 앞서지만 GPT-5.4에는 아직 밀립니다. Cursor 전용이라는 제약도 크기 때문에 Claude Code나 Codex처럼 터미널 중심으로 쓰는 개발자에게는 맞지 않습니다. 반면 이미 Cursor IDE를 주력으로 쓰고 있고, 비용 절감이 중요한 팀이라면 Composer 2 Standard는 충분히 현실적인 선택입니다.
Cursor가 약속한 대로 다음 모델에서 베이스를 처음부터 밝히는지가 앞으로 신뢰를 회복하는 관건이 될 것 같습니다.
본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 발표 (cursor.com/blog/composer-2)
- TechCrunch — Cursor admits Composer 2 built on Kimi (techcrunch.com)
- Business Insider — Cursor Composer 2 Chinese roots (businessinsider.com)
- VentureBeat — Composer 2 beats Claude Opus 4.6 (venturebeat.com)
- TechCrunch — Moonshot AI Kimi K2.5 출시 (techcrunch.com)
- Terminal-Bench 공식 리더보드 (tbench.ai)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 26일 기준으로 작성되었으며, Cursor, Anthropic, Moonshot AI의 공식 발표 및 가격 정책은 언제든 변경될 수 있으니 최신 정보는 공식 사이트에서 직접 확인하시기 바랍니다.











댓글 남기기