Composer 2 / Kimi K2.5 기반
IT/AI
Cursor Composer 2, 중국 모델이라 꺼려지시나요?
2026년 3월 19일, Cursor가 새 코딩 모델 Composer 2를 출시했습니다. 그런데 출시 이틀 만에 개발자 커뮤니티가 발칵 뒤집혔어요. API 응답 헤더에서 모델 ID가 kimi-k2p5-rl-0317-s515-fast로 찍힌 게 트위터에서 44만 뷰를 넘겼거든요. 중국 AI 회사 Moonshot AI의 오픈소스 모델 Kimi K2.5가 기반이라는 사실이 드러난 겁니다. 그래서 쓰면 안 될까요? 아니면 괜찮을까요? 공식 수치와 실사용 데이터를 같이 놓고 봤습니다.
논란의 핵심 — API에서 Kimi가 들킨 경위
Cursor Composer 2는 2026년 3월 19일 공식 출시됐습니다. 발표 내용은 화려했어요. “프런티어급 코딩 지능, CursorBench에서 61.3점, Composer 1.5 대비 37% 향상.” 가격도 공격적으로 책정됐고요. 그런데 출시 다음 날인 3월 20일, 개발자 Fynn이 Cursor API 엔드포인트를 디버깅하다 모델 식별자를 발견했습니다.
📡 API 응답에서 발견된 모델 ID
kimi-k2p5-rl-0317-s515-fast
이 트윗이 44만 뷰를 넘기면서 커뮤니티 논란에 불이 붙었습니다. (출처: X/Twitter, @mark_k, 2026.03.20)
Cursor 측은 논란이 커지자 3월 22일 공동창업자가 직접 Cursor 공식 포럼에서 사실을 인정했습니다. 이어 3월 27일에는 기술 보고서를 arXiv(arxiv.org/abs/2603.24477)에 공개하면서, Kimi K2.5를 베이스 모델로 쓴 뒤 후속 사전학습(continued pretraining)과 대규모 강화학습(RL)을 거쳤다고 밝혔습니다. (출처: Cursor 공식 기술 보고서, 2026.03.27) 처음부터 공개했다면 별 논란이 없었을 사안이, 침묵이 문제가 됐습니다.
중국산 기반이라도 성능이 다른 이유
“중국 오픈소스 모델 기반이면 원래 Kimi K2.5랑 다를 게 없는 거 아닌가?” — 솔직히 이 생각이 드는 게 자연스럽습니다. 막상 들여다보면 꽤 다릅니다.
Cursor 기술 보고서에 따르면 학습 과정은 두 단계입니다. 첫째, 코드 중심 데이터 혼합으로 Kimi K2.5의 기본 코딩 지식을 심화하는 후속 사전학습. 둘째, 실제 Cursor 환경을 그대로 재현한 샌드박스에서 수백만 건의 코딩 세션으로 강화학습. 핵심은 이 RL이 “공개된 GitHub 문제”가 아니라 Cursor 내부 코딩 세션을 기준으로 설계됐다는 점입니다. (출처: Cursor 공식 기술 보고서, 2026.03.27) 실제 개발자 패턴에 맞게 조율했다는 뜻이에요.
💡 공식 수치와 실사용 피드백을 같이 놓고 보니 이런 차이가 보였습니다
Cursor 공식 포럼에서 공동창업자 lrobinson2011이 직접 남긴 코멘트 — “단순 파인튜닝이 아닙니다. 후속 사전학습 + 고연산 강화학습을 했고, Kimi K2.5와 Composer 2 사이의 평가 격차는 상당히 큽니다. Cursor 안에서 둘 다 직접 비교해 보세요.” (출처: Reddit r/cursor, 2026.03.21)
실사용자(r/cursor, Michaeli_Starky)도 “테스트해보니 Kimi K2.5보다 명확히 더 낫습니다”라고 확인했습니다. (출처: Reddit r/cursor, 2026.03.21)
벤치마크 수치로 보면, Composer 2는 CursorBench에서 61.3점을 기록했고, 같은 Kimi K2.5 베이스 모델보다 훨씬 높습니다. 그러나 Claude Opus 4.6, GPT-5.4 같은 최상위 추론 모델보다는 코딩 깊이에서 낮다는 게 실사용자들의 일관된 평가입니다. 베이스가 같다고 완성품이 같지 않다는 것, 직접 수치로 나오는 부분입니다.
벤치마크 1위를 믿을 수 없는 이유가 있습니다
Cursor 발표를 보면 CursorBench, Terminal-Bench 2.0, SWE-bench Multilingual 세 지표에서 모두 1위처럼 보입니다. 그런데 이 수치를 그냥 믿으면 곤란한 이유가 하나 있어요.
CursorBench는 Cursor가 직접 설계한 내부 벤치마크입니다. 공개 벤치마크(SWE-bench Verified, Pro, Multilingual)는 GitHub 공개 저장소에서 문제를 가져오는데, 이 문제들이 모델 학습 데이터에 이미 포함됐을 가능성이 있습니다. OpenAI도 이 문제를 공식 인정하고, 2026년 초 SWE-bench Verified 결과 보고를 자진 중단했습니다 — 아직 해결되지 않은 문제의 약 60%에 결함 있는 테스트가 섞여 있고, 최전선 모델이 패치를 “기억”만으로 재현할 수 있다는 근거에서입니다. (출처: Cursor 공식 CursorBench 문서, cursor.com/ko/blog/cursorbench, 2026년 3월)
💡 자체 벤치마크 + 업계 표준 붕괴 — 두 가지를 같이 놓고 보면 나오는 결론
Cursor가 CursorBench를 직접 설계한 것은 학습/평가 데이터를 동일한 방법론으로 통제한다는 의미이기도 합니다. 객관적인 제3자 기준으로만 보기엔 한계가 있어요. Terminal-Bench 2.0 역시 Laude Institute가 관리하지만, Cursor 점수 산정 방식에서 Anthropic·OpenAI 모델은 각기 다른 하네스를 사용한다는 점이 주석에 명시됩니다. (출처: cursor.com/ko/blog/composer-2) 각 모델에 동일한 조건을 적용한 게 아닙니다.
이런 구조를 알면 수치를 보는 눈이 달라집니다. Composer 2가 나쁜 모델이라는 게 아니라, 발표된 숫자를 그대로 받아들이기보다 실사용 피드백과 교차해서 볼 필요가 있습니다.
Standard vs Fast — 요금표 들여다보기
Composer 2는 두 가지 버전으로 제공됩니다. 출시 공식 발표에서 가격이 이렇게 나왔어요. (출처: cursor.com/ko/blog/composer-2, 2026.03.19)
| 버전 | 출력 토큰 1M당 가격 | 기본 설정 여부 | 특징 |
|---|---|---|---|
| Standard | $2.50 | ❌ | 비용 최소화, 응답 속도 느림 |
| Fast (기본값) | $7.50 | ✅ | 동일 지능, 경쟁 고속 모델보다 저렴 |
※ 입력 토큰 가격은 공식 발표 기준. Cursor 공식 문서(cursor.com/ko/docs/models-and-pricing)에서 최신 수치 확인 권장.
여기서 한 가지 계산이 필요합니다. Fast 버전이 Standard보다 출력 토큰당 3배 비쌉니다. 그런데 Cursor는 “다른 경쟁 고속 모델보다 낮은 비용”이라고 명시합니다. Claude Opus 4.6이나 GPT-5.4 기준 출력 가격과 비교하면, Fast 버전($7.50)도 실제로 저렴한 편에 속합니다. 빠른 속도가 비용을 정당화하는 맥락이에요.
실용적인 선택 기준은 이렇게 나뉩니다. 단순 UI 수정이나 반복 리팩터링처럼 속도가 중요하고 복잡도가 낮으면 Fast가 맞습니다. 반대로 한 세션에서 수백 줄 이상의 복잡한 아키텍처 변경을 다루고 속도보다 완성도가 중요하다면 Standard도 고려할 수 있어요. 개인 플랜에서는 Composer 사용량이 별도 사용량 풀에 포함되어 기본 제공량이 있습니다. (출처: cursor.com/ko/blog/composer-2)
실사용에서 Composer 2가 막히는 구간
실사용자 피드백을 모아보면 Composer 2가 강한 영역과 약한 영역이 꽤 뚜렷하게 갈립니다. 찬사 일색도 아니고, 혹평 일색도 아니에요.
✅ 잘 되는 것
- 단순 UI 변경, 정적 페이지 구성
- 풀스택 프로토타입 빠른 생성
- 반복 리팩터링, 스타일 수정
- 속도 — Opus 4.6 대비 실사용자 기준 5~7배
- SQL 마이그레이션 (일부 사용자 긍정)
❌ 막히는 구간
- 복잡한 백엔드 인증 로직 완결
- 대형 코드베이스에서 파일 패치 정확도 저하
- 비기술적 요구사항 추상화 (기획자 관점)
- “시키지 않은 것”까지 추가하는 과잉 행동
- 아키텍처 수준 설계 판단 (Opus 수준 미달)
r/cursor에서 실사용자(Arindam_200)가 풀스택 Reddit 클론을 처음 프롬프트 한 번에 대부분 완성시킨 사례를 공유했습니다. 다만 인증 버그를 두 번째 프롬프트로 고쳐야 했고, 백엔드 일부 문제는 끝내 해결 못했다고 밝혔습니다. (출처: Reddit r/cursor, 2026.03.21) 80%까지 빠르게 도달하고, 나머지 20%는 더 강한 모델로 마무리하는 조합이 현실적입니다.
라이선스 투명성 — 법적 OK와 사용자 신뢰는 다릅니다
이번 논란에서 가장 중요하게 짚어야 할 부분이 여기입니다. “Cursor가 Kimi K2.5를 썼으니 오픈소스 라이선스를 위반한 거 아닌가?” — 사실 이 부분은 법적으로 간단하지 않습니다.
Kimi K2.5는 상업적 이용과 수정을 허용하되 귀속 표시를 요구하는 라이선스로 공개됐습니다. “귀속 표시”가 무엇인지가 핵심인데, 대부분의 오픈소스 AI 라이선스에서 이는 사용자 화면이 아닌 공식 문서나 모델 카드에 명시하는 것으로도 충족될 수 있습니다. (출처: MindStudio 분석, mindstudio.ai/blog, 2026.03.25) 즉, Cursor가 법적으로 위반했는지는 명확하지 않아요. Cursor 측도 공개 답변을 내놓지 않은 부분입니다.
💡 법적 최소 기준과 사용자가 기대하는 투명성 사이의 거리
라이선스 최소 요건을 충족해도, 월 $20를 내고 “Cursor가 만든 AI”를 쓴다고 생각하는 사람과 “Moonshot의 오픈소스를 파인튜닝한 모델”을 쓴다고 아는 사람은 제품을 평가하는 기준 자체가 다릅니다. 이 간격이 이번 논란의 진짜 중심이었습니다.
Cursor 공동창업자는 사과 후 “다음 모델부터는 베이스 모델을 밝히겠다”고 했습니다. (출처: Threads @dev_seochan, 2026.03.22) 앞으로는 달라질 거라는 약속인데, 이번 사례는 AI 업계 전반의 관행 — 오픈소스를 침묵 속에 사용하고 마케팅에서는 “자체 개발”처럼 포장하는 것 — 이 수면 위로 드러난 사건이기도 합니다. Cursor만의 문제가 아닌 이유가 여기 있어요.
Q&A
마치며
Cursor Composer 2를 두고 “중국 모델 기반이니 쓰면 안 된다”고 결론 내리기는 너무 단순합니다. 반대로 “논란은 과했고 성능은 훌륭하다”고 단언하기도 이릅니다. 직접 따져본 결론은 이렇습니다.
속도가 중요한 반복 작업, 빠른 프로토타입 단계에서 Composer 2는 실질적으로 유용한 옵션입니다. 5~7배라는 속도 차이는 워크플로를 실제로 바꿔줄 수 있는 수치입니다. 다만 복잡한 백엔드나 프로덕션 수준 아키텍처에서는 아직 Opus 4.6·GPT-5.4 급과 격차가 있습니다.
이번 Kimi 논란이 남긴 교훈은 성능보다 더 중요한 질문을 던집니다. “AI 제품이 무엇으로 만들어졌는지, 사용자는 알아야 하는가?” — 이 질문에 대한 업계 표준이 아직 없다는 게, Cursor만이 아니라 지금 AI 서비스 전체가 안고 있는 문제입니다.
📚 본 포스팅 참고 자료
- Cursor 공식 블로그 — Composer 2 출시 발표 (2026.03.19) cursor.com/ko/blog/composer-2
- Cursor 공식 기술 보고서 — Composer 2 학습 과정 (2026.03.27) cursor.com/ko/blog/composer-2-technical-report
- Cursor 공식 문서 — CursorBench 평가 방법론 cursor.com/ko/blog/cursorbench
- MindStudio 분석 — Cursor Composer 2 오픈소스 귀속 논란 (2026.03.25) mindstudio.ai/blog
- Reddit r/cursor — 실사용자 경험 및 공동창업자 코멘트 (2026.03.21) reddit.com/r/cursor
본 포스팅은 2026년 4월 2일 기준으로 작성됐습니다. Cursor Composer 2의 요금, 기능, 지원 모델은 Cursor 서비스 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으니, 최신 정보는 cursor.com 공식 사이트에서 직접 확인하시기 바랍니다.











댓글 남기기