Cursor Composer 2, 벤치마크 3개로 직접 확인했습니다

Published on

in

Cursor Composer 2, 벤치마크 3개로 직접 확인했습니다

2026.03.19 출시 기준 / Composer 2 v1.0

Cursor Composer 2, 벤치마크 3개로 직접 확인했습니다

2026년 3월 19일 출시된 Cursor Composer 2는 “자체 개발 프런티어 모델”이라는 타이틀을 달고 나왔습니다. 출시 24시간 만에 실제 베이스 모델이 드러나며 업계에서 가장 뜨거운 논쟁을 만들었고, 그 중심에는 숫자가 있었습니다. CursorBench 61.3점, 입력 토큰 100만 개당 $1.50, 출시 당일 패치된 모델 ID 노출 — 이 세 가지 수치를 공식 문서와 교차해서 직접 확인해봤습니다.

⚡ CursorBench 61.3점
💰 입력 $1.50/1M토큰
🔍 Kimi K2.5 기반 논란

Composer 2가 뭔지 — 출시 타이틀과 실제 사이

Cursor는 2026년 3월 19일 공식 블로그에서 Composer 2를 “에이전트형 코딩을 위해 설계한 자체 모델”로 소개했습니다. 출시 보도자료에는 “프런티어급 코딩 지능”이라는 표현이 전면에 등장했고, 경쟁 모델을 제치는 벤치마크 수치가 나란히 공개됐습니다. (출처: Cursor 공식 블로그, 2026.03.19)

그런데 출시 당일 한 개발자가 Cursor의 OpenAI 호환 API 엔드포인트를 프록시로 우회해 요청을 덤프했더니, 응답 경로에 accounts/anysphere/models/kimi-k2p5-rl-0317-s515-fast 라는 문자열이 그대로 드러났습니다. (출처: news.hada.io, 커뮤니티 분석, 2026.03.20)

Cursor는 이 노출을 몇 시간 만에 패치했고, 사흘 뒤 공식 기술 보고서에서 Kimi K2.5를 베이스 모델로 사용했음을 직접 명시했습니다. 공동창업자도 “베이스 모델을 언급하지 않은 건 부주의였다”며 사과했습니다. Moonshot AI는 Cursor와의 협력 관계를 공식 인정하면서 무단 사용은 아님이 확인됐습니다.

▲ 목차로 돌아가기

벤치마크 3개 수치, 직접 분석했습니다

공식 기술 보고서와 블로그에 나온 세 가지 벤치마크 수치를 직접 정리하면 이렇습니다.

모델 CursorBench Terminal-Bench 2.0 SWE-bench Multi
Composer 2 61.3 61.7 73.7
Composer 1.5 44.2 47.9 65.9
Composer 1 38.0 40.0 56.9

(출처: Cursor 공식 블로그·기술 보고서, 2026.03.19~27)

CursorBench 기준으로 Composer 2(61.3점)는 Composer 1.5(44.2점) 대비 38.7% 향상됐습니다. 다시 말해 세 버전 중 이번 점프폭이 가장 컸습니다.

💡 Terminal-Bench 2.0은 Laude Institute가 관리하는 터미널 에이전트 평가 지표입니다. 공식 leaderboard 점수와 Cursor 자체 인프라 실행 점수 중 더 높은 값을 적용했다고 보고서에 밝히고 있습니다. 수치가 유독 높게 잡히는 구조적 이유가 여기에 있습니다. (출처: Cursor 기술 보고서 각주 1, 2026.03.27)

솔직히 말하면, 벤치마크 숫자 자체보다 Cursor가 왜 자체 지표인 CursorBench를 만들었는지가 더 중요합니다. 그 이유는 5번 섹션에서 자세히 다룹니다.

▲ 목차로 돌아가기

가격이 저렴한 진짜 이유가 있습니다

Cursor는 Composer 2의 가격을 입력 토큰 100만 개당 $1.50(빠른 버전 기준), 출력 100만 개당 $7.50으로 책정했습니다. (출처: Cursor 공식 Docs, 모델 및 요금 페이지, 2026.03)

모델 입력 / 1M토큰 출력 / 1M토큰
Composer 2 Fast $1.50 $7.50
Claude Opus 4.6(API 기준) $15.00 $75.00
GPT-5.4 mini(API 기준) ~$0.40 ~$1.60

(출처: Cursor Docs 및 각 공급사 공개 API 요금표 기준, 2026.03 적용. GPT-5.4 mini 수치는 약 수치)

Claude Opus 4.6와 비교하면 입력 단가가 10분의 1 수준입니다. 이 가격이 가능한 이유는 기술 보고서에 명확히 적혀 있습니다 — Kimi K2.5 오픈웨이트 모델을 베이스로 사용했기 때문에 Cursor는 수천억 규모의 사전학습 비용을 들이지 않아도 됐습니다.

💡 공식 발표문과 실제 학습 구조를 함께 보면 이런 그림이 나왔습니다 — 저렴한 가격은 기술 혁신이 아니라, 오픈소스 기반을 어떻게 활용했느냐의 결과입니다. 구독자 관점에서는 “싸다”는 사실보다 “왜 싼지”가 더 중요한 정보일 수 있습니다.

개인 Pro 플랜($20/월) 기준 Auto+Composer 풀에는 넉넉한 사용량이 포함돼 있어서, 매일 에이전트를 쓰지 않는다면 추가 과금 없이 쓸 수 있습니다. 다만 팀·엔터프라이즈 요금제에서는 API 단가가 직접 청구되므로, 사용량이 많은 팀이라면 위 표의 단가를 기준으로 월 비용을 역산해 보는 게 좋습니다. (출처: Cursor 공식 Docs, 2026.03)

▲ 목차로 돌아가기

Kimi K2.5 논란 — 무엇이 문제였나

사건의 순서를 정확히 짚어두는 게 중요합니다. 3월 19일 출시 → 같은 날 개발자 Fynn이 OpenAI 호환 엔드포인트 프록시로 모델 경로 확인 → Cursor가 몇 시간 만에 해당 경로 노출 패치 → 3월 21~22일 Cursor 공동창업자 공개 사과 → 기술 보고서에 Kimi K2.5 사용 명시. (출처: news.hada.io, TipRanks, Medium 분석, 2026.03.20~22)

핵심 쟁점 3가지

  • 라이선스 문제: Kimi K2.5는 Modified MIT 라이선스입니다. UI 내 명시 의무가 있는지에 대한 해석이 갈렸고, Moonshot이 협력 관계를 인정하면서 무단 사용은 아닌 것으로 정리됐습니다.
  • 투명성 문제: 법적 기준을 충족하더라도, 월 $20를 내는 사용자에게 베이스 모델 정보가 공개되지 않은 건 사실입니다. Cursor 공동창업자는 이 부분을 인정하고 앞으로 베이스 모델을 공개하겠다고 밝혔습니다.
  • 오픈소스 생태계 문제: 오픈소스로 공개된 모델을 상업적으로 활용할 때 어느 수준까지 표기해야 하는지에 대한 업계 기준이 아직 없습니다. AI 오픈소스 라이선스는 기존 소프트웨어 라이선스 체계를 그대로 가져왔지만, SaaS 형태로 서비스를 제공할 때는 저작권 배포 의무가 발동되지 않는 이른바 ‘SaaS 루프홀’이 존재합니다.

이 논란이 단순히 Cursor만의 문제가 아닌 이유가 있습니다. MindStudio 분석(2026.03.25)에 따르면 오픈소스 모델을 백엔드로 사용하면서 별도 공시 없이 서비스하는 것은 AI 업계 전반에서 흔한 관행이며, Cursor가 유독 가시적인 형태로 발각된 사례일 뿐입니다. (출처: mindstudio.ai/blog, 2026.03.25, rel=”noopener”)

▲ 목차로 돌아가기

공개 벤치마크를 믿으면 안 되는 근거가 생겼습니다

Cursor가 자체 지표 CursorBench를 만든 배경을 기술 보고서에서 직접 밝히고 있습니다. 요약하면 이렇습니다. (출처: Cursor CursorBench 공식 블로그, 2026.03)

  • 오염 문제: SWE-bench Verified/Pro/Multilingual은 공개 저장소 기반이라 모델 학습 데이터에 포함될 가능성이 있습니다. OpenAI는 최전선 모델이 정답 패치를 “기억”만으로 재현할 수 있고, 미해결 문제의 약 60%에 결함 있는 테스트가 있다고 직접 확인한 뒤 SWE-bench Verified 결과 보고를 2025년 말에 완전히 중단했습니다. (출처: OpenAI 공식 블로그, “Why We No Longer Evaluate SWE-bench Verified”)
  • 정렬 문제: 대부분의 SWE-bench는 버그 수정 태스크 위주인데, 실제 개발자가 Cursor에 던지는 요청은 모호한 자연어로 시작해 수백 줄짜리 멀티파일 수정을 요구하는 경우가 많습니다.
  • 채점 문제: 정답 범위가 좁게 설정된 벤치마크에서는 올바른 대안적 접근 방식이 오히려 감점될 수 있습니다.

💡 Cursor의 발표 수치 중 SWE-bench Multi 73.7점을 그대로 받아들이면 안 되는 이유가 여기에 있습니다. OpenAI가 공식 포기 선언한 벤치마크를 Cursor는 여전히 홍보 지표로 사용하고 있고, CursorBench 61.3점과 SWE-bench 73.7점이 나란히 놓이면 후자가 더 좋아 보이지만 신뢰도 측면에서는 전자가 더 현실에 가깝습니다.

써보니까 CursorBench 점수가 체감 품질과 실제로 더 잘 맞는다는 커뮤니티 반응이 많습니다. Cursor 팀도 “CursorBench 순위가 온라인 평가 지표(실제 개발자가 체감하는 모델 품질)와 더 밀접하게 일치한다”고 공식 블로그에서 직접 밝혔습니다. (출처: Cursor CursorBench 블로그, 2026.03)

▲ 목차로 돌아가기

Cursor 요금제별 Composer 2 사용량 계산

요금 구조를 직접 계산해 봤습니다. Pro 플랜 기준으로 Auto+Composer 풀과 API 풀이 분리되어 있어서, Composer 2를 주로 쓰는 경우와 Claude/GPT를 쓰는 경우의 비용이 다르게 산정됩니다. (출처: Cursor 공식 Docs, 2026.03)

요금제 월 구독료 API 포함량 Composer 풀
Pro $20 $20 별도 넉넉한 풀
Pro Plus $60 $70 별도 넉넉한 풀
Ultra $200 $400 별도 넉넉한 풀

(출처: Cursor 공식 Docs, 2026.03)

Cursor 공식 Docs가 제시한 사용 패턴별 추정치는 이렇습니다. 매일 Tab 자동완성만 쓰는 경우 $20 이내, Agent를 가끔 쓰는 경우 대부분 $20 이내, 매일 Agent를 쓰면 총 $60~$100, 복수 에이전트·자동화 파워 유저는 $200 이상이 일반적입니다.

Composer 2는 Auto+Composer 풀에 포함되므로, Claude나 GPT 같은 외부 API 모델을 사용할 때와 다른 사용량 풀을 씁니다. Pro 플랜에서 Composer 2만 집중적으로 사용한다면 API 풀에 손대지 않고도 상당한 양의 에이전트 작업이 가능합니다. 다만 “넉넉한 포함 사용량”의 정확한 토큰 한도를 Cursor는 공식 문서에서 수치로 별도 공개하지 않았습니다.

▲ 목차로 돌아가기

이걸 써야 하는지, 말아야 하는지 — 조건 정리

기대했던 것과 달랐습니다 — “자체 모델”이라는 타이틀에 무게를 뒀다면요. 하지만 코딩 에이전트 성능 자체만 보면 이야기가 달라집니다.

✅ Composer 2가 맞는 경우

  • Pro 플랜 $20 안에서 에이전트 코딩을 최대한 많이 써보고 싶은 경우 (Composer 풀이 별도로 넉넉하게 배정됨)
  • 멀티파일, 장기 에이전트 작업이 주력인 경우 — CursorBench 구조 자체가 이 케이스에 맞춰져 있습니다
  • Claude Opus나 GPT-5 계열의 API 단가가 부담스러운 팀 환경

⚠️ 다시 생각해봐야 하는 경우

  • 사용하는 모델의 출처·라이선스 정보를 팀 내에서 추적·관리해야 하는 엔터프라이즈 환경
  • 벤치마크 수치를 그대로 신뢰해서 제품 의사결정을 하는 경우 — SWE-bench Multi 73.7점은 오염 가능성이 있습니다
  • 베이스 모델 변경에 민감한 보안 컴플라이언스 환경 (Cursor는 앞으로 베이스 모델을 공개하겠다고 했지만, 정책이 언제 어떻게 바뀔지는 이유가 아직 공개되지 않은 부분입니다)

이 부분이 좀 아쉬웠습니다 — 논란 이후 투명성 공약이 나왔지만, Kimi K2.5 기반이라는 사실이 사용자 스스로 발견해야 알 수 있는 구조였다는 점은 바뀌지 않습니다. 모델 출처보다 성능과 워크플로가 우선인 사람에게는 충분히 쓸 만한 도구입니다. 단, 그 전제를 알고 쓰는 것과 모르고 쓰는 건 다릅니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Composer 2는 정말 Kimi K2.5를 그냥 가져다 쓴 건가요?

정확히는 Kimi K2.5를 베이스로 하되, 코드 중심 데이터로 후속 사전학습(continual pretraining)을 추가하고 Cursor 에이전트 환경에 맞춘 대규모 강화학습(RL)을 적용한 모델입니다. 단순 래핑이 아니라 상당한 파인튜닝이 이뤄졌다는 건 기술 보고서가 공식 확인했습니다. (출처: Cursor 기술 보고서 arXiv:2603.24477, 2026.03.27)

CursorBench 61.3점이 높은 건가요, 낮은 건가요?

Cursor가 공개한 비교표 기준으로 가장 강력한 프런티어 모델과 “비슷한 수준”이라고 주장합니다. 다만 CursorBench는 Cursor 내부 지표라 외부 검증이 어렵습니다. 체감 성능은 개인마다 다르고, Reddit r/cursor 기준으로 Composer 2 출시 이후 긍정적인 반응이 다수였지만 “전작 대비 큰 체감 차이는 없었다”는 의견도 나왔습니다.

Pro $20 플랜에서 Composer 2를 쓰면 추가 과금이 없나요?

Auto+Composer 풀에 포함된 사용량 내에서는 추가 과금이 없습니다. 단, 포함 사용량의 정확한 토큰 한도가 공식 문서에 수치로 공개되지 않았습니다. 매일 집중적으로 에이전트를 돌리는 파워 유저라면 풀이 소진될 수 있고, 초과분은 동일한 API 단가로 온디맨드 청구됩니다. (출처: Cursor Docs, 2026.03)

Kimi K2.5 라이선스 위반이 실제로 있었나요?

Moonshot AI가 Cursor와의 협력 관계를 공식 인정했기 때문에 무단 사용은 아닙니다. 다만 Modified MIT 라이선스의 UI 표기 조항 해석을 두고 커뮤니티 내 논쟁이 있었고, 라이선스 위반 여부는 명확히 결론이 나지 않은 상태입니다. 법적 기준 충족 여부와 투명성 의무는 별개 사안입니다.

앞으로 Cursor가 베이스 모델을 공개한다고 했는데, 어디서 확인하나요?

Cursor 공동창업자가 SNS에서 직접 밝혔고, 향후 릴리스 노트나 모델 Docs 페이지에서 확인할 수 있을 것으로 보입니다. 현재(2026.04.01 기준) 공식 Docs의 모델 페이지에는 베이스 모델 정보가 별도로 표기되어 있지 않습니다. cursor.com/ko/docs/models/cursor-composer-2 에서 직접 확인 가능합니다.

▲ 목차로 돌아가기

마치며 — 총평

Cursor Composer 2는 성능과 가격 면에서 코딩 에이전트 시장에 실질적인 변화를 만든 모델입니다. CursorBench 61.3점이라는 수치가 기존 버전 대비 38.7% 향상이라는 건 수치 자체로도 유의미합니다.

그런데 이번 논란이 남긴 질문은 더 묵직합니다. “AI 서비스 구독료를 내는 사람이 베이스 모델을 알아야 하는가?” 오픈소스 AI 모델이 프런티어에 근접할수록, 이 질문에 대한 업계의 답변 방식이 신뢰의 기준이 될 것입니다. Cursor는 그 기준을 논란 이후에야 세웠습니다.

직접 써보고 싶다면 조건을 확인하고 시작하는 게 맞습니다 — Pro $20 플랜, Composer 2 기본 모델 선택, Auto+Composer 풀 확인 순서로 들어가면 됩니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

  1. Cursor 공식 블로그 — Composer 2 출시 발표 (cursor.com/ko/blog/composer-2)
  2. Cursor 기술 보고서 — arXiv:2603.24477 (arxiv.org/abs/2603.24477)
  3. Cursor 공식 Docs — 모델 및 요금 (cursor.com/ko/docs/models-and-pricing)
  4. Cursor CursorBench 블로그 (cursor.com/ko/blog/cursorbench)
  5. MindStudio — Cursor Composer 2 & Kimi K2.5 분석 (mindstudio.ai/blog)
  6. news.hada.io — Cursor Composer 2 모델 논란 커뮤니티 분석 (news.hada.io/topic?id=27702)
  7. OpenAI 공식 블로그 — “Why We No Longer Evaluate SWE-bench Verified” (openai.com)

본 포스팅은 2026.04.01 기준 공개된 정보를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Cursor의 요금 구조, 모델 스펙, 벤치마크 수치는 업데이트에 따라 달라질 수 있으므로 최신 정보는 공식 사이트에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기