Solar Pro 3 직접 써봤습니다 — 2배의 의미

Published on

in

Solar Pro 3 직접 써봤습니다 — 2배의 의미

2026.03.27 기준
solar-pro3-260323
Upstage 공식 발표

Solar Pro 3 직접 써봤습니다 — 2배의 의미

2026년 3월 24일, 업스테이지가 Solar Pro 3(solar-pro3-260323)를 공개했습니다. 보도자료에는 “에이전트 성능 2배 향상”이라는 문구가 눈에 띄었는데요. 숫자는 맞습니다. 근데 그게 전부 다인지, 막상 공식 벤치마크를 옆에 펼쳐놓고 보니 얘기가 좀 달라졌습니다. 결론부터 말씀드리면, Solar Pro 3는 ‘자기 자신 대비’ 2배입니다.

72.3
Tau2-all (vs Pro 2: 36.0)
28.6%
SWE Bench (vs Pro 2: 14.5%)
$0.15
/M input tokens (OpenRouter 기준)
78.2
Ko-Arena-hard-v2 (vs Pro 2: 66.6)

Solar Pro 3가 나온 시점과 배경

업스테이지(Upstage)가 Solar Pro 3(모델 ID: solar-pro3-260323)를 공개한 건 2026년 3월 24일입니다. 국내 기업이 만든 LLM이라는 점에서 관심이 가긴 했는데, 발표문에 나온 수치들이 어느 기준에서 나온 건지 바로 와닿지 않았습니다. 직접 공식 블로그와 벤치마크 원문을 뜯어봤습니다.

Solar Pro 3는 Solar Pro 2 대비 성능을 끌어올린 업데이트 버전입니다. 단순히 파라미터를 늘린 게 아니라, 업스테이지 자체 강화학습 프레임워크인 SnapPO를 핵심으로 에이전트 추론 능력을 재설계했다는 게 발표의 골자였습니다. 기존 Solar Pro 2 사용자라면 API 인터페이스 변경 없이 그대로 model ID만 바꿔서 쓸 수 있다고 명시돼 있습니다.

1월에도 Solar Pro 3라는 이름으로 한 차례 업데이트가 있었고, 이번 3월 버전이 그 위에 에이전트 성능을 집중적으로 올린 두 번째 업데이트입니다. OpenRouter에서는 이미 1월 출시 이후 수십억 토큰이 처리됐다고 공식 블로그에 나와 있습니다. (출처: Upstage 공식 블로그, 2026.03.24)

▲ 목차로 돌아가기

“2배”가 실제로 어디서 나온 수치인가

발표문에서 가장 눈에 띄는 건 “에이전트 벤치마크 2배 향상”이라는 문구입니다. 이게 어디서 나온 수치인지 공식 원문을 확인했습니다. 기준 벤치마크는 Tau2-all이라는 종합 에이전트 평가입니다. Solar Pro 3는 여기서 72.3을 기록했고, Solar Pro 2의 36.0 대비 정확히 2배입니다. 코드 에이전트(SWE Bench)는 28.6 vs 14.5, 터미널 워크플로우(Terminal Bench 2)는 10.1 vs 2.2로, 전부 Solar Pro 2와의 비교입니다. (출처: Upstage 공식 블로그 solar-pro-3-0323, 2026.03.24)

💡 공식 발표문과 실제 수치 흐름을 같이 놓고 보니 이런 차이가 보였습니다

“2배”는 자기 자신 이전 버전 대비 비율입니다. 경쟁사 모델과의 절대 수치 비교가 아닙니다. 솔직히 이 부분을 처음 읽을 때 저도 ‘업계 전체에서 2배 수준이 됐나?’ 싶었는데, 실제로는 Solar Pro 2 → Solar Pro 3 사이의 개선폭입니다.

그리고 한 가지 더. 업스테이지 공식 문서에는 “이 개선은 특정 벤치마크에 최적화한 결과가 아니라, 실제 운영 환경에서 반복적으로 관찰된 한계를 해결하는 방향으로 개발됐다”고 명시돼 있습니다. 개별 도구 호출은 성공하지만 전체 워크플로우를 완주하지 못하는 문제, 즉 실서비스 파이프라인에서 발생하는 실질적인 병목을 해결하려 했다는 설명입니다.

벤치마크 Solar Pro 2 Solar Pro 3 개선폭
Tau2-all (에이전트 종합) 36.0 72.3 +2.0×
SWE Bench (코드 에이전트) 14.5% 28.6% +1.97×
Terminal Bench 2 (터미널 워크플로우) 2.2 10.1 +4.6×
Ko-Arena-hard-v2 (한국어) 66.6 78.2 +17.4%p

출처: Upstage 공식 블로그(upstage.ai/blog/ko/solar-pro-3-0323), 2026.03.24 기준

▲ 목차로 돌아가기

SWE-bench 28.6%를 다른 모델 옆에 놓으면

SWE-bench는 실제 GitHub 이슈를 AI가 직접 코드로 해결하는 비율을 측정하는 대표적인 코딩 에이전트 벤치마크입니다. Solar Pro 3의 28.6%라는 수치, 자기 자신 대비로는 2배지만 같은 시점 다른 모델과 비교하면 어떤 위치인지 확인해봤습니다.

💡 같은 기준으로 줄을 세워보니 이렇게 보였습니다

2026년 3월 기준 SWE-bench Lite 리더보드에서 Claude Opus 4.6은 62.7%, GPT-5.3-Codex는 약 56.8%를 기록하고 있습니다. Solar Pro 3의 28.6%는 아직 최고 모델과 약 2배 이상 격차가 있습니다. 이 수치는 상대 비교 없이 내부 비교만 보면 놓치는 부분입니다.

모델 SWE-bench 입력 토큰 비용 출력 토큰 비용
Claude Opus 4.6 62.7% $15/M $75/M
GPT-5.3-Codex 약 56.8% 미공개 미공개
Solar Pro 3 28.6% $0.15/M $0.60/M

SWE-bench 출처: pricepertoken.com 리더보드, 2026.03 기준 / Solar Pro 3 가격 출처: OpenRouter(openrouter.ai/upstage/solar-pro-3), 2026.03 기준

직접 계산해보면, Claude Opus 4.6 기준 입력 토큰 $15/M 대비 Solar Pro 3는 $0.15/M으로 100배 저렴합니다. 코딩 에이전트 성능이 절반 수준인데 가격도 100분의 1이라는 뜻입니다. 어떤 상황에서 이 격차가 의미 있는지는 섹션 6에서 다시 다룹니다.

▲ 목차로 돌아가기

102B인데 비용이 저렴한 이유 — MoE 구조

Solar Pro 3는 총 102B(1,020억) 파라미터 모델입니다. 숫자만 보면 GPT-4 급 이상의 대형 모델인데, 가격이 $0.15/M 토큰으로 그렇게 저렴한 이유가 있습니다. MoE(Mixture-of-Experts) 아키텍처를 쓰기 때문입니다.

MoE는 토큰을 처리할 때 모델 전체를 다 돌리는 게 아니라, 해당 토큰에 적합한 일부 ‘전문가’ 네트워크만 선택적으로 활성화하는 방식입니다. 공식 문서에는 “추론 시 토큰당 12B 파라미터만 활성화”한다고 나와 있습니다. (출처: Upstage 공식 블로그, 2026.03.24) 실제로 돌아가는 연산량은 12B짜리 모델과 비슷하다는 뜻입니다.

💡 총 파라미터 수와 실제 연산량이 다르다는 걸 함께 보니 이 구조의 의미가 달리 보였습니다

102B 모델을 풀 가동하면 이론적으로 $0.15/M 가격이 나오기 어렵습니다. MoE 덕분에 실제 연산 비용은 12B 수준으로 유지하면서, 학습된 지식의 표현력은 102B 규모를 활용할 수 있습니다. 이 설계가 “성능 향상 = 비용 증가” 공식을 깬 핵심입니다.

업스테이지는 여기에 자체 강화학습 프레임워크 SnapPO를 적용했습니다. SnapPO의 핵심은 학습 과정의 각 단계를 독립적으로 실행·조합할 수 있도록 모듈화했다는 점입니다. 수학, 코드, 에이전트 등 서로 다른 도메인의 추론 능력을 동시에 강화하는 게 가능해집니다. 상세 기술은 공개된 테크니컬 리포트에서 확인할 수 있습니다. (출처: HuggingFace Solar-Open-100B 테크니컬 리포트)

▲ 목차로 돌아가기

한국어 성능이 실제로 달라진 부분

Solar Pro 3의 한국어 관련 수치도 짚고 넘어갑니다. Ko-Arena-hard-v2 벤치마크에서 78.2를 기록했습니다. Solar Pro 2의 66.6 대비 11.6점 올랐습니다. 이 벤치마크는 한국어 응답 품질을 사람이 직접 평가하는 방식으로 측정되며, 단순 번역 품질이 아닌 실제 대화 자연스러움을 반영합니다. (출처: Upstage 공식 블로그, 2026.03.24)

업스테이지 공식 발표에는 “한국어로 질문했을 때 영어 대비 품질 저하 없이 자연스러운 응답을 생성”하는 방향으로 개선했다고 나와 있습니다. 이 부분이 중요한 건, 해외 모델들이 한국어 프롬프트를 받으면 영어 수준 대비 응답 품질이 낮아지는 경우가 많기 때문입니다. 한국어 업무 환경에서 에이전트를 운영하는 경우 이 격차가 워크플로우 안정성으로 직결됩니다.

1월 버전 대비 3월 업데이트에서 특히 에이전트 워크플로우의 한국어 지시 이행 정확도가 올라간 부분이 체감 차이로 이어집니다. 구체적으로는 한국어 다단계 지시사항을 받았을 때 단계를 빠뜨리거나 순서를 뒤바꾸는 오류가 줄었다는 게 업스테이지 설명의 핵심입니다.

▲ 목차로 돌아가기

Solar Pro 3가 유리한 딱 한 가지 조건

코딩 에이전트 절대 성능만 보면 Claude Opus 4.6나 GPT-5.3-Codex가 앞섭니다. 그럼에도 Solar Pro 3가 유리한 조건이 있습니다. 한국어 기반 에이전트를 고비용 없이 대량으로 돌려야 하는 경우입니다.

직접 계산해볼 수 있는 비용 비교

한국어 에이전트 태스크를 월 100만 토큰(입력) 기준으로 돌린다고 가정했을 때:

  • Claude Opus 4.6: $15.00 (100만 토큰 × $15/M)
  • Solar Pro 3: $0.15 (100만 토큰 × $0.15/M)
  • 차이: 100배

출처: OpenRouter(openrouter.ai/upstage/solar-pro-3), 2026.03 기준

비용이 100분의 1이라면, SWE-bench 성능이 절반이라도 충분히 감수할 수 있는 시나리오가 있습니다. 예를 들어, 정형화된 한국어 문서 분류, 반복 패턴이 있는 API 연동, 내부 데이터 정리 자동화처럼 최고 수준의 추론이 필요 없는 에이전트 태스크입니다. 이런 경우 굳이 Claude Opus 4.6 가격을 내면서 쓸 이유가 없습니다.

반대로, 복잡한 소프트웨어 버그 수정이나 멀티스텝 코드 생성처럼 SWE-bench 성능이 직접 결과 품질로 연결되는 작업이라면 Solar Pro 3의 28.6% 수치가 아쉽게 느껴질 수 있습니다. 업스테이지 공식 문서에서도 “에이전트 성능 향상이 코딩 전문 최고 수준과의 격차를 완전히 좁힌다”는 표현은 없습니다. 이 부분은 명시적으로 나와 있지 않습니다.

▲ 목차로 돌아가기

Q&A

Q1
Solar Pro 3는 무료로 써볼 수 있나요?
Upstage Console 플레이그라운드에서 API 키를 발급하면 테스트할 수 있습니다. OpenRouter에서도 무료 티어(upstage/solar-pro-3:free)로 사용 가능합니다. 실제 서비스 연동은 크레딧 구매 후 API 호출 방식으로 진행합니다. (출처: openrouter.ai/upstage/solar-pro-3)
Q2
Solar Pro 2에서 Solar Pro 3로 전환할 때 코드 수정이 필요한가요?
업스테이지 공식 문서에 별도 API 인터페이스 변경이 없다고 명시돼 있습니다. model ID를 solar-pro2에서 solar_pro3로 바꾸는 것 외에 추가 코드 수정은 필요 없습니다. 처리 속도(TPS)도 동일하게 유지됩니다. (출처: Upstage 공식 블로그, 2026.03.24)
Q3
SnapPO는 기존 강화학습(RLHF)과 어떻게 다른가요?
SnapPO는 학습 과정의 각 단계를 독립 모듈로 분리해 실행·조합할 수 있게 설계됐습니다. 일반적인 강화학습은 학습 파이프라인이 단일 흐름으로 묶여 특정 도메인 개선이 다른 도메인에 간섭을 일으킬 수 있는데, SnapPO는 이를 분리해서 수학·코드·에이전트를 동시에 효율적으로 강화합니다. 상세 설계는 Solar Open 테크니컬 리포트에서 확인할 수 있습니다.
Q4
Solar Pro 3의 컨텍스트 윈도우는 얼마인가요?
OpenRouter 공식 페이지에 128,000 토큰(128K) 컨텍스트 윈도우로 나와 있습니다. 이 수치는 별도 공식 발표에서 추가 내용을 밝히지 않았습니다. (출처: openrouter.ai/upstage/solar-pro-3)
Q5
결론적으로 Solar Pro 3를 쓰면 좋은 상황은 어떤 경우인가요?
비용 민감도가 높고, 한국어 기반 업무 자동화가 필요한 경우에 적합합니다. 대용량 API 호출이 필요한 한국어 에이전트, 정형화된 문서 처리, 반복 워크플로우 자동화 등에서 Claude Opus 4.6 대비 100배 낮은 비용으로 비슷한 수준의 작업을 처리할 수 있습니다. 최고 수준의 코딩 에이전트 성능이 필요한 경우라면 현시점에서는 다른 모델을 먼저 검토하는 게 현실적입니다.

▲ 목차로 돌아가기

마치며

Solar Pro 3의 “2배 성능 향상”은 맞는 말입니다. 다만 그 기준이 이전 자신과의 비교라는 걸 알고 봐야 합니다. 같은 시점 최고 수준 모델과 비교하면 SWE-bench 기준으로 아직 2배 가까운 격차가 남아 있습니다.

그러나 MoE 구조 덕분에 Claude Opus 4.6 대비 100배 저렴하고, 한국어 에이전트 품질이 실질적으로 올라간 건 사실입니다. 이 두 가지를 조합하면, 한국어 기반 대용량 에이전트 파이프라인에서는 충분히 경쟁력 있는 선택지입니다. 최고 수준의 코딩 능력이 필요하지 않은 반복성 높은 업무라면 비용 효율 면에서 현재 나와 있는 모델 중 가장 매력적인 옵션 중 하나라고 봅니다.

4월 이후 추가 업데이트 계획은 공식 발표에서 별도로 밝히지 않은 상태입니다. 업스테이지 공식 채널을 통해 확인하는 게 정확합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Upstage 공식 블로그 (한국어) — Solar Pro 3 업데이트: 에이전트 성능 2배, 무엇이 달라졌나
    https://www.upstage.ai/blog/ko/solar-pro-3-0323
  2. Upstage 공식 블로그 (영어) — Solar Pro 3: 2× Agentic Performance — What Changed
    https://www.upstage.ai/blog/en/solar-pro-3-0323
  3. OpenRouter — Solar Pro 3 API Pricing & Providers
    https://openrouter.ai/upstage/solar-pro-3
  4. pricepertoken.com — SWE-bench Lite Leaderboard 2026
    https://pricepertoken.com/leaderboards/benchmark/swe-bench-lite
  5. Upstage Console 개발자 문서 — Solar Pro 3 모델 스펙
    https://console.upstage.ai/docs/models/solar-pro-3

⚠️ 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 본 포스팅의 모든 수치와 내용은 2026년 3월 27일 기준이며, 최신 정보는 Upstage 공식 채널(upstage.ai)에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기