OpenAI 공식 문서 기준
IT / AI
OpenAI Responses API: “비용 내려간다” 믿으면 3월 31일 요금 폭탄 맞는 이유
OpenAI가 모든 신규 프로젝트에 Responses API 전환을 공식 권장하고 있습니다. 그런데 이 전환이 ‘비용 절감’으로 이어진다는 믿음, 사실일까요? 공식 수치가 말하는 현실은 생각보다 훨씬 복잡합니다.
Responses API가 뭔지부터: Chat Completions와 뭐가 다른가
OpenAI가 2025년 3월 출시한 Responses API는 기존 Chat Completions API의 ‘진화 버전’으로, 모든 신규 프로젝트에 공식 권장되고 있습니다. (출처: OpenAI 공식 문서, 2026.03.17 기준)
가장 큰 차이는 구조적 단위입니다. Chat Completions는 Messages 배열을 주고받지만, Responses API는 메시지·도구 호출·도구 출력을 모두 포함하는 Items를 사용합니다. 이 변화 덕분에 웹 검색, 파일 검색, 코드 인터프리터, 원격 MCP 서버 연결 같은 내장 도구를 단일 API 요청 안에서 자유롭게 조합할 수 있습니다.
또한 store: true 설정으로 대화 상태를 서버에 저장하거나, 이전 응답의 ID(previous_response_id)를 참조해 멀티턴 대화를 이어갈 수 있습니다. Chat Completions에서는 개발자가 대화 이력 전체를 직접 관리해야 했던 번거로움이 사라진 셈입니다.
| 항목 | Chat Completions | Responses API |
|---|---|---|
| 입출력 단위 | Messages | Items (범용 객체) |
| 상태 관리 | 직접 관리 | 서버 저장 가능 |
| 내장 도구 | 없음 | 웹 검색, 코드 인터프리터, MCP 등 |
| 추론 모델 성능 | 기본 | SWE-bench +3% (GPT-5 기준) |
| 지원 지속 여부 | 계속 지원 | 모든 신규 기능 우선 탑재 |
토큰 비용은 정말 줄어드는가 — 공식 수치의 진짜 의미
Responses API로 전환하면 비용이 줄어든다는 기대가 많습니다. OpenAI 공식 문서에는 “캐시 활용도 40~80% 개선”이라고 명시되어 있습니다. (출처: OpenAI Responses vs Chat Completions 공식 문서, 2026.03.17 기준) 그런데 이 수치가 정확히 무엇을 의미하는지 짚고 넘어가야 합니다.
많은 분들이 previous_response_id를 사용하면 이전 대화 이력 전체를 다시 전송하지 않아도 되니 입력 토큰 요금이 줄어들 것이라 기대합니다. 그런데 OpenAI 개발자 커뮤니티에서 공식 확인된 사실은 다릅니다.
대화 이력을 참조하든 직접 전송하든, 내부적으로는 전체 컨텍스트가 모델을 통해 처리되며 입력 토큰은 동일하게 청구됩니다. (출처: OpenAI 개발자 커뮤니티, 2025.06.22)
다시 말해, 40~80% 캐시 개선 효과는 1,000 토큰 이상의 반복되는 컨텍스트에 자동 적용되는 ‘프롬프트 캐싱’의 결과이지, Responses API로 갈아탄다고 자동으로 얻어지는 게 아닙니다. 프롬프트 캐싱은 Chat Completions에서도 자동 적용되므로, 이 부분에서 두 API 사이에 비용 차이는 발생하지 않습니다.
그렇다면 비용 절감이 가능한 시나리오는 언제일까요? GPT-5 계열의 추론 모델을 쓸 때입니다. 추론 토큰이 대화 턴 사이에 서버에 저장되고 재활용되는 구조 덕분에 SWE-bench 기준 3% 성능 향상과 함께 토큰 효율이 높아집니다. GPT-4.1이나 gpt-4o 같은 비추론 모델을 쓰는 경우에는 이 효과를 기대하기 어렵습니다. 이것이 API 전환 계획을 세울 때 반드시 먼저 확인해야 하는 지점입니다.
3월 31일부터 달라지는 컨테이너 과금 구조
Responses API의 코드 인터프리터나 셸(Shell) 도구를 쓰는 개발자라면 지금 당장 확인해야 할 변경 사항이 있습니다. 2026년 3월 31일부터 컨테이너 사용 요금이 ‘컨테이너 수 기준’에서 ’20분 단위 세션 기준’으로 바뀝니다. (출처: OpenAI 공식 API 가격 페이지, 2026.03.17 기준)
| 메모리 용량 | 변경 전 (컨테이너당) | 변경 후 (20분 세션당) |
|---|---|---|
| 1GB (기본값) | $0.03 | $0.03 per 20분 |
| 4GB | $0.12 | $0.12 per 20분 |
| 16GB | $0.48 | $0.48 per 20분 |
| 64GB | $1.92 | $1.92 per 20분 |
단가 자체는 그대로이지만, 청구 기준이 완전히 달라집니다. 예전에는 컨테이너를 얼마나 오래 사용하든 컨테이너 생성 단위로만 과금됐다면, 이제는 20분마다 카운터가 올라갑니다. OpenAI 커뮤니티의 한 개발자는 이를 직접 계산해 공유했습니다. 1GB 컨테이너 하나를 30일 내내 켜 놓으면 한 달 청구 금액이 약 $64.80이 됩니다. ($0.03 × 3회/시간 × 24시간 × 30일 = $64.80, 출처: OpenAI 커뮤니티 실측 계산, 2026.02.11) 이 수치가 실제로 의미하는 것은, 세션을 항상 켜두는 방식으로 운영하면 월 비용이 수십 달러씩 추가될 수 있다는 점입니다.
또 한 가지 주의할 부분이 있습니다. OpenAI 공식 문서에 따르면 code_interpreter와 shell 도구는 동시에 사용할 수 없으며, 컨테이너를 한 번이라도 건드리면 만료 타이머가 재설정됩니다. 즉, 세션을 주기적으로 관리하지 않으면 예상보다 요금이 빠르게 쌓입니다. 커뮤니티에서 확인된 사례에서 한 개발자는 테스트 목적으로만 사용했음에도 컨테이너 엔드포인트 실험 이후 $50 청구서를 받았습니다. (출처: OpenAI 커뮤니티, 2026.02.13)
Assistants API 종료, 어떤 서비스가 먼저 타격받나
OpenAI는 2025년 8월 26일 Assistants API의 공식 지원 종료(Deprecation)를 선언했고, 2026년 8월 26일 완전 셧다운을 예고했습니다. (출처: OpenAI 공식 마이그레이션 가이드, 2026.03.17 기준) 종료까지 5개월이 남은 현 시점에서, 어떤 코드베이스가 실제로 영향을 받는지 구체적으로 파악해야 합니다.
Assistants API를 쓰는 코드는 openai.beta.threads, openai.beta.assistants, openai.beta.threads.runs 같은 beta 네임스페이스를 사용합니다. 프로젝트 전체를 검색해 이 패턴이 있다면 마이그레이션 계획을 즉시 수립해야 합니다. 특히 고객 서비스 챗봇, 데이터 분석 자동화, 멀티스텝 에이전트를 Assistants API 기반으로 구현한 서비스가 주요 대상입니다.
Responses API로 이전할 때 이전 Thread는 자동 이관되지 않습니다. OpenAI의 공식 마이그레이션 가이드에 따르면, 기존 Thread 데이터를 Conversations 객체로 변환하려면 직접 백필(backfill) 스크립트를 작성해야 합니다. 그리고 Assistant 객체는 더 이상 API 코드로 직접 생성할 수 없으며, 반드시 OpenAI 대시보드에서 ‘프롬프트(Prompt)’ 객체로 재생성해야 합니다. 단순한 코드 수정이 아닌, 배포 아키텍처와 데이터 마이그레이션을 동시에 다뤄야 하는 작업입니다.
두 일정이 서로 다르기 때문에, Assistants API를 그대로 쓰면서 Responses API의 컨테이너 기능도 활용하는 구조라면 3월 31일 이전에 컨테이너 세션 관리 방식을 먼저 점검해야 합니다. Assistants 종료 대응만 준비하다가 컨테이너 요금 청구서를 먼저 받는 상황이 발생할 수 있습니다.
GPT-5 계열과 GPT-4.1에서 성능 차이가 다른 이유
OpenAI 공식 문서에는 “GPT-5 같은 추론 모델을 Responses API와 함께 사용하면 Chat Completions보다 SWE-bench에서 3% 향상된다”고 명시되어 있습니다. (출처: OpenAI 공식 문서) 이 3%라는 수치가 왜 추론 모델에서만 나타나는지를 이해하면, 어떤 프로젝트에 Responses API가 진정으로 유리한지 판단할 수 있습니다.
핵심은 ‘추론 토큰의 컨텍스트 유지’ 방식에 있습니다. GPT-5, GPT-5.1, GPT-5.2처럼 내부적으로 추론 과정을 거치는 모델들은 응답을 생성하기 위해 중간 사고 단계를 만들어냅니다. Responses API에서는 이 추론 토큰들이 대화 맥락 속에 유지되어 다음 턴에서도 활용되지만, Chat Completions에서는 매 요청마다 이 정보가 유실됩니다. 이것이 SWE-bench 성능 차이의 원인입니다.
반면 GPT-4.1, GPT-4.1 mini, GPT-4o처럼 추론 단계가 없는 모델은 이 이점이 적용되지 않습니다. 이 모델들을 사용하는 경우에는 Responses API로 전환해도 성능 향상은 사실상 없으며, 오직 내장 도구와 상태 저장 편의성만 달라집니다. 이 사실이 중요한 이유는, 서비스 비용 절감을 목적으로 Responses API 전환을 결정한다면 현재 사용 중인 모델부터 먼저 확인해야 한다는 것입니다.
마이그레이션 전 반드시 확인할 체크리스트
무작정 Responses API로 넘어가기 전에 아래 항목들을 순서대로 점검하는 것을 권장합니다. 각 항목은 OpenAI 공식 문서와 개발자 커뮤니티 사례를 기반으로 정리했습니다.
- 코드에
openai.beta네임스페이스가 있는가? — 있다면 Assistants API 사용 중. 8월 26일 이전에 이관 완료 필요. - 컨테이너(code_interpreter / shell)를 사용하는가? — 사용한다면 3월 31일 이전에 세션 생명주기 관리 로직 추가 필요. 세션 종료 후 삭제 또는 20분 내 재생성 방식으로 변경.
- 현재 모델이 추론 모델인가? — GPT-5 계열이라면 Responses API 전환으로 성능·효율 모두 향상. GPT-4.1 계열이라면 성능 변화 없이 편의성만 달라짐.
- ZDR(Zero Data Retention) 정책을 사용하는 조직인가? — ZDR 환경에서는
store: false가 자동 강제되며 암호화 추론(Encrypted Reasoning) 방식으로만 멀티턴 가능. - 기존 Thread 데이터를 보존해야 하는가? — 자동 이관 도구 없음. 직접 백필 스크립트로 Conversations 객체 변환 필요.
- Assistant 객체를 API 코드로 생성하고 있는가? — Responses API에서는 Prompt 객체를 반드시 대시보드에서 생성해야 하며 코드로 직접 생성 불가.
이 중 컨테이너 관련 항목(2번)이 현재 기준으로 가장 긴박한 사안입니다. 3월 31일은 이 글 작성 시점으로부터 불과 2주 뒤입니다. 코드 인터프리터나 셸 도구를 운영 환경에서 쓰고 있다면 지금 바로 세션 관리 방식을 점검하시기 바랍니다. OpenAI 플랫폼의 Usage 대시보드에서 컨테이너 사용 이력과 세션 지속 시간을 직접 확인할 수 있습니다.
자주 묻는 질문
마치며 — Responses API, 전환은 피할 수 없지만 서두를수록 손해
OpenAI Responses API로의 전환은 장기적으로 옳은 선택입니다. 내장 도구, 멀티에이전트 지원, 추론 모델에서의 성능 향상, 그리고 새로운 기능이 가장 먼저 탑재되는 우선권까지 — 분명한 장점이 있습니다. 그러나 ‘전환하면 당연히 비용이 줄어든다’는 막연한 기대로 접근하면, 오히려 3월 31일 컨테이너 과금 변경에 따른 예상 외 청구서를 받게 됩니다.
개인적으로는, 지금 당장 전체 마이그레이션을 완료하는 것보다 컨테이너 세션 관리를 먼저 정리하고, 신규 기능 개발에는 Responses API를 적용하며, 기존 Assistants API 기반 서비스는 8월 26일 종료 전까지 단계적으로 이관하는 방식이 현실적이라고 생각합니다. 전환 비용과 마이그레이션 리스크를 최소화하면서도 OpenAI 생태계의 흐름을 따라갈 수 있는 균형점입니다.
핵심 날짜는 두 가지입니다. 2026년 3월 31일 — 컨테이너 과금 방식 변경. 2026년 8월 26일 — Assistants API 완전 종료. 이 두 일정을 개발 로드맵에 지금 바로 박아 두시기 바랍니다.
본 포스팅 참고 자료
- OpenAI 공식 마이그레이션 가이드 (Assistants → Responses API) — developers.openai.com/api/docs/assistants/migration/
- OpenAI Responses API vs Chat Completions 공식 비교 문서 — developers.openai.com/api/docs/guides/responses-vs-chat-completions
- OpenAI 공식 API 가격 페이지 (컨테이너 과금 변경 안내 포함) — openai.com/ko-KR/api/pricing/
- OpenAI 개발자 커뮤니티: Responses API 토큰 절감 여부 실측 토론 — community.openai.com
- OpenAI 개발자 커뮤니티: 컨테이너 Duration 과금 및 $50 실 청구 사례 — community.openai.com
⚠️ 면책 조항: 본 포스팅은 2026년 3월 17일 기준 OpenAI 공식 문서와 커뮤니티 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있으며, 최신 정보는 반드시 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.


댓글 남기기