2026.03.12 ChatGPT 적용 기준
API: gpt-5.1-chat-latest
GPT-5.1, 코딩이 제일 강하다고요?
숫자 먼저 보세요
결론부터 말씀드리면, GPT-5.1은 분명히 진화했습니다. 그런데 공식 벤치마크를 직접 들여다보면 “코딩 최강”이라는 말이 생각보다 조건이 많이 붙습니다. SWE-bench 76.3%는 사실이지만, Claude Opus 4.5는 80.9%를 찍었고, 추상 추론(ARC-AGI-2)에선 GPT-5.1이 17.6%로 Claude(37.6%)의 절반도 안 됩니다. 게다가 고객 응대 시뮬레이션(Tau²-bench Retail)에서는 GPT-5보다 오히려 수치가 내려갔습니다.
GPT-5.1이란? — 2026년 3월 ChatGPT에서 달라진 것
GPT-5.1은 2025년 11월 12일 API에 먼저 올라왔고, 2026년 3월 11일부터 ChatGPT에도 정식으로 적용됐습니다. (출처: OpenAI ChatGPT 릴리스노트, 2026.03.11) OpenAI가 직접 “개발자를 위한 모델”이라고 명명한 만큼, 코딩·에이전트 작업에 초점이 맞춰진 업그레이드입니다.
ChatGPT에서는 GPT-5.1 Instant, GPT-5.1 Thinking, GPT-5.1 Pro 세 가지 모드로 나뉩니다. 이후 GPT-5.3 Instant(2026.03.03), GPT-5.4 Thinking(2026.03.05)이 연달아 등장하면서 현재 GPT-5.1은 ChatGPT 기본 선택지에서 이미 교체됐습니다. 즉, API에서는 여전히 gpt-5.1-chat-latest로 호출 가능하지만, ChatGPT 앱 기본 모드는 GPT-5.3/5.4 시리즈로 넘어간 상태입니다.
OpenAI는 이 모델을 “24시간 프롬프트 캐시 지원, apply_patch 및 shell 도구 내장, 상시 웹 검색 연동”을 묶어 공개했습니다. (출처: OpenAI 공식 발표, 2025.11.13) 단순한 채팅 모델이 아니라 에이전트 파이프라인을 전제로 설계된 것이 핵심입니다.
💡 공식 발표문과 ChatGPT 실제 적용 시점을 나란히 놓고 보면, GPT-5.1은 API 우선 출시 모델입니다. ChatGPT 사용자 기준으론 이미 5.3/5.4가 기본값이라, “GPT-5.1 쓰고 싶으면 API를 써야 한다”는 상황이 만들어졌습니다.
코딩 실력, 공식 수치로 직접 따져봤습니다
GPT-5.1의 SWE-bench Verified 점수는 76.3%입니다. (출처: OpenAI 공식 발표, 2025.11.13) 이 수치는 GPT-5(72.8%)보다 3.5%p 올랐고, 실제 GitHub 이슈 500개를 해결하는 실전 코딩 벤치마크입니다. 3.5%p 상승이 작아 보여도, 문제 500개 중 약 17개를 더 풀었다는 뜻입니다.
그런데 같은 시기 Claude Opus 4.5는 동일 벤치마크에서 80.9%, Terminal-bench 2.0에서도 59.3%를 기록했습니다. (출처: Vellum AI Flagship Model Report, 2025.11.27) GPT-5.1(77.9% Codex-Max 기준, Terminal-bench 58.1%)과 비교하면 Claude가 앞서는 영역이 분명히 있습니다.
| 벤치마크 | GPT-5.1 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|
| SWE-bench Verified | 76.3% | 80.9% | 76.2% |
| Terminal-bench 2.0 | 58.1% | 59.3% | 54.2% |
| GPQA Diamond | 88.1% | 87.0% | 91.9% |
| ARC-AGI-2 (추상 추론) | 17.6% | 37.6% | 31.1% |
| MMMU (시각 추론) | 85.4% | 80.7% | 81.0% |
출처: OpenAI 공식 발표(2025.11.13), Vellum AI Flagship Model Report(2025.11.27)
Cline이 공개한 실사용 데이터에서 GPT-5.1은 diff 적용 오류율을 7% 줄였습니다. (출처: Cline 공식 발표, 2025.11) 숫자가 작아 보여도, 코드 패치 자동화 파이프라인에서 7%는 하루에 수백 건이 쌓이는 규모 작업엔 체감이 납니다.
GPT-5보다 오히려 내려간 수치가 있습니다
공식 벤치마크 테이블에서 눈에 잘 안 띄는 수치가 하나 있습니다. Tau²-bench Retail 점수입니다. GPT-5가 81.1%였는데, GPT-5.1은 77.9%로 오히려 3.2%p 낮아졌습니다. (출처: OpenAI 공식 발표 벤치마크 테이블, 2025.11.13) Tau²-bench Retail은 고객 응대 에이전트 시뮬레이션입니다. 쇼핑몰 CS봇처럼 “환불 처리”, “배송 상태 안내” 같은 멀티턴 고객 응대를 얼마나 일관되게 처리하는지 측정합니다.
💡 OpenAI가 공식 문서에서 이 역주행의 이유를 별도로 설명하지 않았습니다. 반면 Tau²-bench Telecom(96.7% → 95.6%)도 소폭 내렸는데, 개발자 도구와 코딩 최적화에 집중한 결과가 범용 에이전트 성능에 약간의 트레이드오프를 가져온 가능성이 있습니다. “코딩은 더 잘하지만 CS봇 용도로는 GPT-5가 나을 수 있다”는 맥락이 생깁니다.
게다가 SWE-bench Verified 자체에 대한 신뢰도 문제도 있습니다. Stanford HAI 2025 AI Index Report는 “상위 모델들이 SWE-bench에서 issue 설명 패턴을 암기하는 방식으로 높은 점수를 내고 있다는 오염 가능성”을 명시했습니다. (출처: Stanford HAI, 2025 AI Index Report) 76.3%라는 수치를 그대로 “실전 코딩 실력”과 동일시하기 전에 이 맥락을 알아두면 좋습니다.
그리고 ARC-AGI-2 점수가 17.6%라는 건 상당히 낮습니다. 이 벤치마크는 패턴 암기로는 풀 수 없도록 설계된 새로운 패턴 추론 문제들로 구성되어 있습니다. Claude가 37.6%를 기록했고, Gemini도 31.1%인 것과 비교하면 GPT-5.1은 “새로운 패턴을 즉석에서 추론하는 능력”에서 약점이 뚜렷합니다.
reasoning_effort 설정이 성능을 완전히 바꿉니다
GPT-5.1에는 API 호출 시 reasoning_effort 파라미터를 지정할 수 있습니다. 'none', 'low', 'medium', 'high' 중 하나를 선택합니다. 그런데 공식 문서에는 이런 내용이 딱 나옵니다: GPT-5에서 ‘minimal’ 추론이 가능했던 것과 달리, GPT-5.1은 ‘none’으로 설정하면 추론 자체를 완전히 끕니다. (출처: OpenAI 공식 발표, 2025.11.13)
이게 왜 중요하냐면, 비용 절감을 목적으로 reasoning_effort: 'none'으로 세팅한 파이프라인에서는 GPT-5.1이 사실상 추론 없는 패스트모드로만 동작합니다. GPT-5 때의 ‘minimal’은 그래도 약간의 추론을 했는데, GPT-5.1 ‘none’은 다릅니다. Sierra의 피드백도 이를 뒷받침합니다: “reasoning_effort ‘none’을 쓰면 응답 일관성이 GPT-5보다 20% 낮아졌다.” (출처: Sierra, OpenAI 공식 발표 인용, 2025.11.13)
즉, GPT-5.1 성능을 제대로 쓰려면 ‘medium’ 이상이 필요한데, 그만큼 추론 비용도 올라갑니다. 벤치마크 수치는 full reasoning 기준이라, 비용 최적화 파이프라인에선 체감 성능이 다를 수 있습니다.
💡 24시간 프롬프트 캐시는 재활용 가능한 시스템 프롬프트를 반복 호출할 때 최대 90% 비용 절감이 됩니다. (출처: OpenAI 공식 발표) prompt_cache_retention='24h'를 Responses API에 명시해야 적용됩니다. 설정 안 하면 캐시가 안 됩니다.
에이전트로 쓸 때 놓치기 쉬운 보안 수치
GPT-5.1을 에이전트에 쓸 때 가장 무심코 지나치는 수치가 있습니다. 바로 프롬프트 인젝션 취약점입니다. Vellum AI가 Gray Swan 벤치마크로 측정한 결과, GPT-5.1의 프롬프트 인젝션 공격 성공률은 21.9%였습니다. Claude Opus 4.5는 4.7%, Gemini 3 Pro는 12.5%입니다. (출처: Vellum AI Flagship Model Report, 2025.11.27)
21.9%라는 건, 외부 문서나 웹페이지에 숨겨진 악성 명령이 에이전트에게 주입될 때 약 5번 중 1번꼴로 성공한다는 뜻입니다. 실서비스에서 에이전트가 웹 크롤링이나 외부 문서 처리를 반복할 경우, 누적되면 의도치 않은 작업 실행이 생길 수 있습니다.
이 수치가 특히 중요한 이유는, GPT-5.1이 apply_patch와 shell 도구를 기본 내장하고 있기 때문입니다. shell 도구가 활성화된 에이전트에서 인젝션이 성공하면, 단순한 잘못된 응답에 그치지 않고 시스템 명령 실행까지 이어질 가능성이 있습니다. OpenAI 공식 문서에서 이 조합에 대한 별도 경고는 아직 공개되지 않았습니다.
요금제별로 실제 접근 경로가 다릅니다
ChatGPT 앱 기준으로, 2026년 3월 현재 GPT-5.1은 Plus·Pro·Business 이상에서 접근 가능했지만 현재 기본 선택지에서 GPT-5.3/5.4로 교체된 상태입니다. API에서는 gpt-5.1-chat-latest로 호출하면 되고, 코딩 전용 모델은 gpt-5.1-codex, 가벼운 버전은 gpt-5.1-codex-mini가 별도 존재합니다. (출처: OpenAI 공식 발표, 2025.11.13)
GPT-5.1의 API 가격은 GPT-5와 동일합니다. 24시간 프롬프트 캐시를 활용하면 반복 호출이 많은 에이전트 파이프라인에서 비용을 의미 있게 줄일 수 있습니다. Responses API에서 "prompt_cache_retention='24h'"를 명시해야 적용된다는 점은 주의할 부분입니다.
실사용 관점에서 정리하면 이렇습니다. 코딩 자동화 파이프라인이라면 gpt-5.1-codex가 더 나은 선택이고, 대화형 에이전트라면 현재 기본값인 GPT-5.3/5.4 Instant를 먼저 테스트해 보는 게 순서입니다. GPT-5.1은 API를 직접 다루는 개발자를 위한 모델로 남아 있습니다.
GPT-5.1 API 모델 문자열 요약
gpt-5.1-chat-latest— 일반 대화·에이전트용gpt-5.1-codex— 코딩 전용, Codex와 동일 기반gpt-5.1-codex-mini— 비용 절감형, 가벼운 코딩 작업
Q&A
Q1. GPT-5.1을 ChatGPT 앱에서 바로 쓸 수 있나요?
2026년 3월 기준으로, ChatGPT 앱에서는 이미 GPT-5.3 Instant와 GPT-5.4 Thinking이 기본값으로 적용되어 있습니다. GPT-5.1은 API에서 gpt-5.1-chat-latest로 호출하는 방식이 주된 접근 경로입니다. (출처: OpenAI ChatGPT 릴리스노트, 2026.03.11)
Q2. SWE-bench 76.3%면 코딩에서 가장 뛰어난 거 아닌가요?
같은 시기 Claude Opus 4.5는 80.9%를 기록했습니다. 그리고 Stanford HAI는 상위 모델들이 SWE-bench 문제의 패턴을 암기하는 방식으로 점수를 높이는 ‘오염 가능성’을 보고했습니다. 76.3%를 그대로 실전 코딩 실력과 동일시하기보단, 참고 지표로 활용하는 게 맞습니다.
Q3. 24시간 프롬프트 캐시는 어떻게 활성화하나요?
Responses API 호출 시 파라미터에 "prompt_cache_retention='24h'"를 명시해야 합니다. 별도로 지정하지 않으면 캐시가 적용되지 않습니다. 캐시 적용 시 반복 호출 비용을 최대 90%까지 줄일 수 있습니다. (출처: OpenAI 공식 발표, 2025.11.13)
Q4. apply_patch와 shell 도구는 기본으로 켜져 있나요?
Responses API 호출 시 tools 배열에 {"type": "apply_patch"} 또는 {"type": "shell"}을 명시해야 활성화됩니다. 기본값으로 켜져 있지는 않습니다. 특히 shell 도구는 활성화 전에 퍼미션 설계를 먼저 검토하는 게 좋습니다. (출처: OpenAI 공식 발표)
Q5. GPT-5.1 vs GPT-5.3/5.4 — 지금 어떤 걸 써야 하나요?
ChatGPT 앱 일반 사용자라면 지금 기본값인 GPT-5.3/5.4가 더 최신 업데이트가 반영된 상태입니다. API로 코딩 파이프라인을 구성한다면 gpt-5.1-codex나 gpt-5.1-codex-mini가 여전히 현역입니다. 두 방향의 용도가 분리된 상황입니다.
마치며
GPT-5.1은 분명히 잘 만든 모델입니다. SWE-bench 76.3%, diff 오류율 7% 감소, 24시간 캐시, apply_patch·shell 도구 내장 — 이 조합은 코딩 자동화 파이프라인에 실용적인 개선입니다. 그런데 딱 거기까지입니다.
“코딩 최강”이라고 말하기엔 Claude Opus 4.5(80.9%)가 앞서고, 추상 추론에선 차이가 두 배 납니다. 고객 응대 에이전트 용도로는 GPT-5 수치(81.1%)가 오히려 더 높았고, 프롬프트 인젝션에도 세 모델 중 가장 취약합니다. “개발자용 코딩 에이전트”라는 정확한 포지션을 이해하고 쓰는 게 맞습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 모델 문자열·가격·기능은 OpenAI 공식 문서에서 최신 내용을 확인하세요.
📌 본 포스팅 참고 자료
- OpenAI 공식 발표 — 개발자를 위한 GPT-5.1 (openai.com/ko-KR/index/gpt-5-1-for-developers/)
- OpenAI ChatGPT 릴리스노트 (help.openai.com/ko-kr/articles/6825453-chatgpt-release-notes)
- Vellum AI Flagship Model Report — GPT-5.1 vs Claude Opus 4.5 vs Gemini 3 Pro (vellum.ai/blog/flagship-model-report)
- Stanford HAI 2025 AI Index Report — SWE-bench 오염 가능성 (aiindex.stanford.edu/report/)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점(2026.03.23) 기준이며, OpenAI 공식 문서에서 최신 내용을 반드시 확인하세요. 본 포스팅은 특정 서비스의 구매·사용을 권유하지 않습니다.

댓글 남기기