2026.03.24 기준
solar-pro3-260323
TECH

Solar Pro 3, 2배 향상인데 절반도 안 되는 이유

“에이전트 성능 2배”라는 숫자는 맞습니다. 그런데 어떤 숫자와 비교했느냐를 보면 결론이 달라집니다.

72.3

Tau2-all (전작 36.0)

28.6%

SWE-bench (전작 14.5%)

$0.25

API 가격 /1M tokens

78.2

Ko-Arena-Hard-v2 (전작 66.6)

“2배 향상”이 맞는 말인 이유, 그리고 맞지 않는 이유

Solar Pro 3는 2026년 3월 24일, Upstage가 공개한 최신 LLM입니다. 에이전트 종합 벤치마크인 Tau2-all에서 Solar Pro 2의 36.0에서 72.3으로, SWE-bench(코드 에이전트)에서 14.5%에서 28.6%로 뛰었습니다. 수치만 놓고 보면 “정확히 2배”입니다. (출처: Upstage 공식 블로그, 2026.03.24)

그런데 같은 시점에 Claude 4.5 Sonnet은 SWE-bench에서 70.6%를 기록하고 있습니다. (출처: Pluralsight AI Model Report, 2026.02.20) Solar Pro 3의 28.6%는 글로벌 1위 대비 절반에도 미치지 못합니다. “2배 향상”은 전작 대비 내부 비교일 뿐, 경쟁 구도 안에서의 위치는 별개 문제입니다.

💡 공식 벤치마크 두 개를 나란히 놓고 보니 이런 차이가 보였습니다 — 자기 자신과의 비교와 시장 전체에서의 비교는 완전히 다른 이야기입니다. Solar Pro 3가 쓸모없다는 게 아니라, 어떤 상황에서 써야 하는지가 명확해집니다.

모델	SWE-bench	API 가격 (입력 /1M)
Solar Pro 3	28.6%	$0.25
Claude 4.5 Sonnet	70.6%	약 $3
GPT-5 medium	65.0%	약 $2
Gemini 2.5 Pro	53.6%	약 $1.25

※ SWE-bench: 출처 Pluralsight AI Model Report (2026.02.20), Claude 가격 추정치

▲ 목차로 돌아가기

102B인데 실제로 쓰이는 건 12B입니다

Solar Pro 3를 처음 접하면 “총 102B 파라미터”라는 숫자에 눈이 갑니다. 그런데 Upstage 공식 문서에는 이렇게 나옵니다. “추론 시 토큰당 12B 파라미터만 활성화합니다.” (출처: Upstage Console 공식 문서, solar-pro-3-0323) 요청이 들어올 때마다 전체 102B가 돌아가는 게 아닙니다.

이것이 MoE(Mixture-of-Experts) 아키텍처입니다. 102B 중에 어떤 ‘전문가’ 파라미터를 쓸지 라우터가 토큰마다 골라줍니다. 덕분에 처리 비용은 실질적으로 12B 모델 수준이면서 총 파라미터 수는 102B의 표현력을 확보할 수 있습니다. API 가격이 입출력 모두 $0.25/1M tokens로 책정된 것도 이 구조 덕분입니다. (출처: aimodelapis.com, solar-pro3 pricing)

💡 Claude 4.5 Sonnet API 가격(입력 기준 약 $3/1M)과 비교하면 Solar Pro 3는 약 12분의 1 수준입니다. 성능 격차가 2.5배인데 가격 차이가 12배라면, 태스크 성격에 따라 계산이 역전됩니다.

Solar Pro 2는 총 파라미터가 Solar Pro 3의 3분의 1 이하였는데, 이번 업데이트에서 파라미터를 3배 이상 늘리면서도 처리 속도(TPS)와 비용 구조를 그대로 유지했다는 점이 핵심입니다. Upstage CEO 김성훈 대표도 “실제 업무 환경에서 결과를 내는 에이전트 AI의 실용성 도약을 목표로 개발했다”고 밝혔습니다. (출처: 조선비즈 영문판, 2026.03.24)

▲ 목차로 돌아가기

SnapPO가 에이전트 워크플로우를 어떻게 바꿨나

Solar Pro 2에서 현장 개발자들이 반복적으로 경험한 문제가 있었습니다. 개별 도구 호출은 잘 되는데, 여러 단계를 거쳐야 하는 에이전트 워크플로우 전체를 완주하지 못하는 경우입니다. (출처: Upstage 공식 블로그, 2026.03.24) 도구 사용 자체는 되는데 장기 계획 유지가 안 되는 패턴입니다.

Upstage는 이 문제를 자체 개발 강화학습 기술 SnapPO로 풀었습니다. SnapPO는 학습 과정의 각 단계를 모듈 단위로 독립 실행·조합할 수 있도록 설계해, 수학·코드·에이전트 등 도메인을 동시에 균형 있게 학습시킬 수 있는 구조입니다. 기존 강화학습이 특정 도메인에 집중하면 다른 도메인 성능이 떨어지는 트레이드오프가 있었는데, SnapPO는 이 부분을 모듈화로 해결했습니다. (출처: Upstage Solar Open Technical Report, HuggingFace)

Terminal Bench 2 결과가 이 변화를 가장 잘 보여줍니다. Solar Pro 2의 2.2점에서 Solar Pro 3는 10.1점으로 뛰었습니다. 상승률로 따지면 +359%입니다. 터미널 명령 시퀀스를 끝까지 완주하는 능력, 즉 중간에 포기하지 않는 능력이 달라진 것입니다.

▲ 목차로 돌아가기

Solar Pro 3가 진짜 유리한 상황이 따로 있습니다

SWE-bench 절대 수치만 보면 Claude 4.5 Sonnet이 압도적입니다. 그런데 현실 프로젝트 환경에서 모든 팀이 Claude 4.5 Sonnet을 쓸 수 있는 건 아닙니다. 비용과 데이터 거주지 요건, 그리고 한국어 서비스 품질이 변수입니다. Solar Pro 3가 유리한 지점은 여기서 드러납니다.

첫째, 한국어 에이전트 파이프라인입니다. 한국어 텍스트를 처리할 때 모델이 영어로 내부 추론을 하고 한국어로 출력하면 미묘한 뉘앙스 손실이 발생합니다. Solar Pro 3는 Ko-Arena-Hard-v2에서 78.2점으로, 한국어 응답 품질이 글로벌 모델 대비 구조적으로 유리한 위치에 있습니다. (출처: Upstage 공식 블로그, 2026.03.24)

둘째, 대량 호출 비용 시나리오입니다. 하루 1백만 건의 API 요청을 기준으로 직접 계산해볼 수 있습니다. 평균 입출력 토큰을 1,000 tokens/request로 가정하면, 하루 총 처리 토큰은 약 10억 tokens(1B)입니다. Solar Pro 3 기준 하루 비용은 약 $250(1B × $0.25/1M), Claude 4.5 Sonnet은 약 $3,000(1B × $3/1M)입니다. 성능 차이가 2.5배(28.6% vs 70.6%)인데 비용은 12배 차이입니다. SWE-bench 기준 “절대 최고”가 아니어도 되는 텍스트 분류, 고객 응답 초안 생성 같은 반복 태스크에서는 Solar Pro 3 쪽이 경제성이 뚜렷합니다.

▲ 목차로 돌아가기

공식 벤치마크로 계산해본 실질 비용 대비 성능

OpenRouter에서 Solar Pro 3는 이미 1월 출시 이후 수십억 토큰이 처리됐다고 Upstage가 밝혔습니다. (출처: Upstage 공식 블로그, 2026.03.24) 단순 홍보가 아니라 실제 트래픽이 붙고 있다는 신호입니다. 그 이유 중 하나가 가격입니다.

📊 직접 계산 가능한 비용 비교

가정: 하루 API 요청 100만 건 / 건당 평균 1,000 tokens(입출력 합산)

→ 하루 처리량: 약 10억 tokens (1B tokens)

• Solar Pro 3: $0.25 × 1,000 = $250/일

• Claude 4.5 Sonnet: 약 $3.00 × 1,000 = $3,000/일

• GPT-5 medium: 약 $2.00 × 1,000 = $2,000/일

월 환산 시 Solar Pro 3($7,500) vs Claude 4.5($90,000) → 12배 차이

SWE-bench 점수 기준 성능 비율(28.6 ÷ 70.6 = 약 40%)과 가격 비율(0.25 ÷ 3.00 = 약 8%)을 비교하면, Solar Pro 3는 성능은 40% 수준이지만 비용은 8% 수준입니다. 고난도 코딩이 아닌 루틴 업무 자동화에서는 가성비가 역전됩니다.

단, API 가격 $0.25는 aimodelapis.com 기재 수치이며, Upstage 공식 pricing 페이지에서 최신 가격을 반드시 확인해야 합니다. 프로모션 가격과 정식 가격이 다를 수 있습니다.

▲ 목차로 돌아가기

한국어 성능 개선, 수치로 보면 무게감이 다릅니다

Solar Pro 3의 Ko-Arena-Hard-v2 점수는 78.2입니다. Solar Pro 2가 66.6이었으니 11.6점 상승했습니다. (출처: Upstage 공식 블로그, 2026.03.24) 숫자가 작아 보일 수 있는데, Arena 계열 벤치마크는 실제 사용자가 두 모델의 응답을 놓고 선호도를 직접 평가하는 방식이라 의미가 다릅니다.

한국어 에이전트 파이프라인에서 실제로 차이가 나는 지점은 지시사항 이행입니다. IFBench(지시 이행 벤치마크)에서 Solar Pro 3는 55.78점으로 전작 대비 약 52% 올랐습니다. (출처: Upstage 공식 블로그, 2026.01.26) “~해줘”, “~하면 안 돼” 같은 한국어 특유의 미묘한 지시 차이를 끝까지 따라가는 능력입니다. 에이전트 단계가 길어질수록 이 차이가 누적됩니다.

💡 글로벌 모델과 Solar Pro 3의 공식 수치를 같이 놓고 보니 이런 차이가 보였습니다 — 영어 중심 에이전트 벤치마크에서의 격차보다 한국어 기반 평가에서 Solar Pro 3의 상대적 위치가 훨씬 유리합니다. 한국어 서비스 개발팀에게는 SWE-bench보다 Ko-Arena 점수가 더 실질적인 기준입니다.

기존 Solar Pro 2 사용자라면 모델명을 solar_pro3로 변경하는 것만으로 전환이 끝납니다. API 인터페이스와 요청 방식, 처리 속도가 모두 동일하게 유지됩니다.

▲ 목차로 돌아가기

Q&A — 5가지 자주 묻는 질문

Q1. Solar Pro 3와 Solar Pro 2의 API 모델명이 다른가요?

네, 다릅니다. Solar Pro 2는 solar-pro2-251215, Solar Pro 3는 solar-pro3-260323입니다. Upstage Console에서 모델명만 교체하면 되고 파라미터나 엔드포인트 구조는 동일합니다. (출처: Upstage Console 공식 문서)

Q2. 멀티모달(이미지 처리)을 지원하나요?

Solar Pro 3는 텍스트 전용 모델입니다. 이미지·음성 입력은 지원하지 않습니다. Upstage 공식 문서에서 별도 멀티모달 기능을 언급하지 않고 있습니다. 이미지 처리가 필요한 파이프라인은 별도 모델을 병렬로 사용해야 합니다.

Q3. OpenRouter로 쓰면 가격이 더 달라지나요?

OpenRouter 라우팅 수수료가 추가될 수 있습니다. 1월 출시 이후 이미 수십억 토큰이 OpenRouter를 통해 처리됐다고 Upstage가 밝혔으나 (출처: Upstage 공식 블로그, 2026.03.24), 정확한 OpenRouter 가격은 openrouter.ai/upstage/solar-pro-3에서 직접 확인해야 합니다.

Q4. SnapPO가 다른 오픈소스 강화학습 방식과 다른 점은 뭔가요?

기존 RLHF·DPO 계열은 단계 전체를 한 번에 학습합니다. SnapPO는 학습 단계를 모듈화해 수학·코드·에이전트를 독립적으로 학습시키고 조합하는 구조입니다. 이 덕분에 특정 도메인 개선 시 다른 도메인이 흔들리는 현상이 줄었습니다. 상세 설계는 Solar Open Technical Report(HuggingFace)에 공개돼 있습니다.

Q5. 에이전트 성능이 2배 올랐는데 코딩 용도로 Claude를 대체할 수 있나요?

고난도 코딩 에이전트(GitHub 이슈 자동 해결 등)라면 현재로서는 어렵습니다. SWE-bench 기준 Solar Pro 3는 28.6%, Claude 4.5 Sonnet은 70.6%입니다. 다만 한국어 반복 태스크, 고객 응답 자동화, 내부 문서 처리 에이전트처럼 “절대 최고 성능”보다 “비용 효율”이 우선인 파이프라인에서는 현실적인 선택지가 됩니다.

▲ 목차로 돌아가기

마치며 — 솔직한 총평

Solar Pro 3는 “국내 최강 LLM”이라기보다 “한국어 서비스에서 쓸 수 있는 가장 가성비 좋은 에이전트 모델”로 보는 게 정확합니다. 글로벌 코딩 에이전트 경쟁에서 Claude나 GPT-5를 단기간에 따라잡기는 어렵습니다. 그 간격은 공식 수치로도 명확합니다.

그럼에도 Terminal Bench 2 기준 +359%, IFBench 기준 +52%라는 수치는 실제 에이전트 파이프라인에서 체감할 수 있는 변화입니다. “도구 호출은 되는데 워크플로우를 끝까지 못 마치는” 문제가 개선됐다는 게 핵심이고, 이건 한국어 업무 자동화에서 실질적입니다.

Solar Pro 2를 쓰고 있다면 마이그레이션 비용 없이 모델명만 바꾸면 됩니다. 새로 도입을 검토 중이라면 “한국어 에이전트가 주업이고 비용이 중요한가” 여부를 먼저 따져보는 게 맞습니다. 한국어 루틴 자동화라면 Solar Pro 3, 복잡한 코딩 에이전트라면 Claude 4.5를 쓰는 게 지금 시점의 현실적인 판단입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Upstage 공식 블로그 — Solar Pro 3 업데이트 (2026.03.24) https://www.upstage.ai/blog/ko/solar-pro-3-0323
Upstage 공식 블로그 — Solar Pro 3 첫 출시 (2026.01.26) https://upstage.ai/blog/ko/solar-pro-3-0127
Upstage Console 공식 문서 — solar-pro-3 https://console.upstage.ai/docs/models/solar-pro-3
Pluralsight — Best AI Models 2026 Agentic Benchmarks (2026.02.20) https://www.pluralsight.com/resources/blog/ai-and-data/best-ai-models-2026-list
조선비즈 영문 — Upstage launches Solar Pro 3 (2026.03.24) https://biz.chosun.com/en/en-it/2026/03/24/6XS7GYI2MNA4DIPH7KGEQCKG4Q/
Upstage Solar Open Technical Report — SnapPO 기술 원문 HuggingFace 링크

본 포스팅은 2026년 3월 30일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 벤치마크 수치는 각 공식 평가 프로토콜 기준이며, 실제 서비스 환경에서의 성능은 사용 조건에 따라 다를 수 있습니다. API 가격은 반드시 Upstage 공식 pricing 페이지에서 최신 정보를 확인하세요.

Solar Pro 3, 2배 향상인데 절반도 안 되는 이유

“2배 향상”이 맞는 말인 이유, 그리고 맞지 않는 이유

102B인데 실제로 쓰이는 건 12B입니다

SnapPO가 에이전트 워크플로우를 어떻게 바꿨나

Solar Pro 3가 진짜 유리한 상황이 따로 있습니다

공식 벤치마크로 계산해본 실질 비용 대비 성능

한국어 성능 개선, 수치로 보면 무게감이 다릅니다

Q&A — 5가지 자주 묻는 질문

마치며 — 솔직한 총평

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Solar Pro 3, 2배 향상인데 절반도 안 되는 이유

“2배 향상”이 맞는 말인 이유, 그리고 맞지 않는 이유

102B인데 실제로 쓰이는 건 12B입니다

SnapPO가 에이전트 워크플로우를 어떻게 바꿨나

Solar Pro 3가 진짜 유리한 상황이 따로 있습니다

공식 벤치마크로 계산해본 실질 비용 대비 성능

한국어 성능 개선, 수치로 보면 무게감이 다릅니다

Q&A — 5가지 자주 묻는 질문

마치며 — 솔직한 총평

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기