OpenAI Assistants API 종료, 이 상황이면 코드 멈춥니다

Published on

in

OpenAI Assistants API 종료, 이 상황이면 코드 멈춥니다

2026.03.20 기준 / OpenAI 공식 Deprecations 문서 기준

OpenAI Assistants API 종료, 이 상황이면 코드 멈춥니다

결론부터 말씀드리면, 2026년 8월 26일 이후 Assistants API를 호출하는 코드는 그냥 오류를 냅니다. 종료 선언은 이미 2025년 8월에 났고, 지금은 D-159일이 남은 상태입니다. 그런데 전환이 생각보다 단순하지 않습니다. “Responses API로 바꾸면 된다”는 말만 믿고 코드를 수정했다가 비용 청구서를 받고 당황한 사례가 실제로 나오고 있습니다.

종료일 D-159
Assistants API → Deprecated
공식 대체: Responses API

종료 일정, 공식 문서에서 직접 확인했습니다

OpenAI는 2025년 8월 26일 공식 커뮤니티 공지와 Deprecations 문서를 통해 Assistants API의 종료 일정을 확정했습니다. 종료일은 2026년 8월 26일이며, 이 날짜 이후에는 Assistants API 엔드포인트 자체에 접근이 불가능해집니다. (출처: OpenAI Deprecations 공식 문서)

공지 내용을 직접 보면 이렇게 나옵니다. “Responses API has already overtaken Chat Completions in token activity.” — 즉, 토큰 사용량 기준으로 Responses API가 이미 Chat Completions를 넘어섰다는 것입니다. OpenAI 입장에서는 이미 “이전이 완료된 것”으로 보고 있고, 남은 것은 개발자들이 따라오는 일뿐입니다.

💡 공지 발표 시점(2025년 8월 26일)과 실제 종료 시점(2026년 8월 26일)이 정확히 1년 간격입니다. OpenAI가 드물게 여유 있는 마이그레이션 기간을 준 케이스입니다. 그러나 현재(2026년 3월 기준) 이미 절반이 지나간 상태입니다.

Assistants API는 처음부터 “beta” 딱지를 달고 출시됐습니다. 2023년 11월에 나왔고, 정식 출시는 한 번도 되지 않은 채 종료 수순을 밟고 있습니다. 출시부터 종료까지 약 3년으로, OpenAI API 역사에서 가장 짧은 수명 중 하나로 기록될 것입니다.

▲ 목차로 돌아가기

Assistants → Responses, 뭐가 바뀌는 건가요

Assistants API는 세 가지 핵심 객체(Assistant, Thread, Run)로 이루어졌습니다. Responses API는 이 구조 전체를 갈아엎었습니다. 공식 마이그레이션 가이드에 나오는 변환표를 보면 이렇습니다.

Assistants API (구) Responses API (신) 달라진 핵심
Assistants Prompts 버저닝 지원, 대시보드에서만 생성 가능
Threads Conversations 메시지 외 tool call, output도 저장
Runs Responses 단일 엔드포인트, 동기/비동기 통합
Run steps Items 메시지·도구 호출·출력을 통합 표현

구조 변환 자체는 비교적 명확합니다. Assistants API를 사용한 실제 개발자가 Responses API로 전환하는 데 약 2시간이 걸렸다는 후기도 있습니다. (출처: OpenAI 커뮤니티 실사용 후기, 2025.03.22)

단순 텍스트 대화만 처리하는 앱이라면 진짜로 2시간이면 끝납니다. 문제는 file_search(RAG), 동적 Assistant 생성, Zero Data Retention 요구사항이 있는 경우입니다. 이쪽에서 걸립니다.

▲ 목차로 돌아가기

file_search 쓰는 분들, 비용이 달라집니다

Assistants API에서는 없던 청구 항목이 생깁니다

공식 가격 페이지에 명시된 수치입니다. Responses API에서 file_search 도구를 호출하면 $2.50 / 1,000건이 별도로 청구됩니다. Assistants API에는 이 항목이 없었습니다. (출처: OpenAI 플랫폼 가격 페이지)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

실사용 후기를 보면, gpt-4o-mini를 기반으로 RAG 앱을 운영하는 경우 토큰 비용 기준 1,000건당 약 $5이던 비용이 file_search 호출 비용 $2.50이 더해지며 실질적으로 약 50% 비용 상승이 발생했습니다. “Responses API가 더 저렴하다”는 공식 발표와 정반대 결과가 나온 셈인데, 이는 공식 발표의 “40~80% 비용 절감”이 캐시 활용률 기준이고, 도구 호출 비용은 별개로 산정되기 때문입니다. (출처: OpenAI Community, 2025.03.23)

계산식으로 직접 따라해볼 수 있게 정리하면 이렇습니다.

Assistants API 기준 (RAG 앱, gpt-4o-mini, 1,000건 기준):
• 입력 토큰 평균 30k × $0.15/1M = 약 $4.50
• file_search 호출 비용 = $0
• 합계: 약 $4.50

Responses API 기준 (동일 조건):
• 입력 토큰 평균 30k × $0.15/1M = 약 $4.50
• file_search 호출 비용 = $2.50
• 합계: 약 $7.00

이 계산이 의미하는 것은 하나입니다. RAG 기반 서비스를 gpt-4o-mini로 운영 중이라면, Responses API 전환 후 비용 시뮬레이션을 먼저 돌리지 않으면 예산 초과가 납니다. 특히 사용자가 많고 파일 검색 빈도가 높은 서비스일수록 격차가 커집니다.

▲ 목차로 돌아가기

Prompt 객체는 API로 못 만듭니다

“기능 동등”이라는 말, 조건이 달립니다

OpenAI는 Assistants API 종료 발표에서 “Responses API가 feature parity(기능 동등)에 도달했다”고 밝혔습니다. 그런데 이 말에 조건이 하나 붙습니다. Assistants의 대체 객체인 Prompt는 API로 생성할 수 없고 대시보드에서만 만들 수 있습니다. (출처: OpenAI Assistants 마이그레이션 가이드)

💡 공식 문서와 커뮤니티 반응을 교차해서 보니 이 부분이 선명해졌습니다

기존에 Assistants API를 사용하던 서비스 중 다수는 코드로 동적으로 Assistant 객체를 생성하는 방식을 씁니다. 예를 들어 고객마다 다른 instructon 세트를 가진 수백 개의 어시스턴트를 만드는 B2B SaaS 앱이 여기에 해당합니다. Responses API에서 이 방식을 그대로 쓰려면 Prompt가 아닌 코드 레벨에서 instruction을 직접 관리해야 합니다. “대시보드에서 만들어라”는 안내는 이런 아키텍처에서는 적용 자체가 안 됩니다. OpenAI 커뮤니티에서도 “Is the new API in beta? How can we trust it won’t also experience the same treatment?”라는 반응이 나온 이유가 여기 있습니다.

실질적인 해결 방법은 두 가지입니다. 첫째, instruction을 앱 코드에서 관리하고 각 Responses 호출 시 직접 넘기는 방식으로 설계를 변경하는 것입니다. 둘째, Prompt를 미리 대시보드에서 만들어두고 prompt_id를 코드에서 참조하는 구조로 전환하는 것입니다. 어느 쪽이든 기존 코드의 구조 변경이 필요합니다.

▲ 목차로 돌아가기

Thread → Conversation 마이그레이션, 자동 도구 없습니다

공식 마이그레이션 가이드를 보면 이 문장이 나옵니다. “We will not provide an automated tool for migrating Threads to Conversations.” 기존 Thread에 쌓인 대화 이력을 Conversation으로 자동 변환해주는 도구는 없습니다. 직접 코드로 변환해야 합니다. (출처: OpenAI Assistants 마이그레이션 가이드)

공식 가이드에서 제시하는 Thread → Conversation 백필 방식은 다음과 같습니다. 기존 Thread에서 메시지를 페이지별로 순서대로 가져온 뒤, 역할에 따라 input_text 또는 output_text 타입으로 변환하고, 최종적으로 openai.conversations.create(items=items)를 호출하는 구조입니다. 이미지가 포함된 메시지는 input_image 타입으로 별도 변환이 필요합니다.

주의해야 할 실운영 이슈:
• 기존 Thread는 종료일까지만 접근 가능합니다. 종료일 이후에는 Thread 자체에 접근하는 API도 막힙니다.
• Conversations API에 저장된 항목은 별도 TTL이 없는 반면, Responses 객체 단독 저장 시 기본 30일 보존 정책이 적용됩니다.
• 이력 데이터가 중요한 서비스라면 종료일 전까지 백필을 완료해야 합니다.

솔직히 말하면, 이 작업이 서비스 규모에 따라 상당히 달라집니다. 수천 명의 사용자와 수만 개의 Thread가 있는 서비스라면 배치 작업 설계가 별도로 필요합니다. “마이그레이션 쉽다”는 말은 신규 코드 기준이고, 기존 데이터 이전은 다른 이야기입니다.

▲ 목차로 돌아가기

ZDR 환경이라면 추가로 확인할 것이 있습니다

Zero Data Retention(ZDR) 계약이 있는 기업 환경에서는 Responses API를 상태 저장(stateful) 방식으로 쓸 수 없습니다. store: false를 설정해야 하는데, 이 경우 previous_response_id 체이닝이나 Conversations API 활용이 제한됩니다.

OpenAI 공식 문서는 이 케이스를 위해 “encrypted reasoning”을 대안으로 제시합니다. store: false + include: [“reasoning.encrypted_content”]를 함께 쓰면 상태를 서버에 저장하지 않으면서도 추론 연속성을 유지할 수 있습니다. 암호화된 추론 토큰이 응답에 반환되고, 이를 다음 요청에 그대로 넘기는 방식입니다. (출처: OpenAI migrate-to-responses 공식 가이드)

단, Background mode(background: true, 비동기 장시간 작업용)는 ZDR 환경에서 사용 불가로 명시돼 있습니다. 긴 작업을 비동기로 돌려야 하는 파이프라인이 있다면 이 점을 사전에 확인해야 합니다.

이 부분은 기존 블로그에서 거의 다루지 않는 내용인데, 금융·의료·법률 분야처럼 데이터 보존 정책이 엄격한 곳에서 OpenAI API를 쓰는 경우 마이그레이션 전에 반드시 짚어야 할 지점입니다.

▲ 목차로 돌아가기

Q&A

Q1. 지금 당장 Assistants API를 쓰고 있어도 되나요?
2026년 8월 26일 종료일 전까지는 계속 사용 가능합니다. 단, OpenAI는 더 이상 Assistants API에 새 기능을 추가하지 않습니다. 신규 프로젝트라면 Responses API로 시작하는 게 맞고, 기존 서비스라면 종료일까지 여유 있게 마이그레이션 일정을 잡는 것이 좋습니다.
Q2. Chat Completions API도 함께 없어지나요?
아닙니다. Chat Completions API는 계속 지원됩니다. OpenAI 공식 문서에 “Chat Completions remains supported”로 명시돼 있습니다. 다만 신규 기능(web_search, MCP, code interpreter 내장 등)은 Responses API에만 추가됩니다.
Q3. file_search(RAG) 기능은 Responses API에서도 그대로 쓸 수 있나요?
vector store는 그대로 사용할 수 있고, file_search 기능 자체도 동일하게 작동합니다. 단, Responses API에서는 file_search 도구 호출 시 $2.50/1,000건이 별도 청구됩니다. Assistants API에는 없던 항목이므로 비용 계획을 다시 세워야 합니다.
Q4. previous_response_id 방식이 Thread보다 나은 점이 있나요?
단순 대화에서는 더 직관적입니다. 이전 응답 ID 하나만 넘기면 컨텍스트가 이어집니다. 단, 이 방식은 이전 입력 토큰도 계속 청구 대상에 포함됩니다. 대화가 길어질수록 비용이 누적되는 구조이므로, 장기 대화가 많은 서비스라면 Compaction(대화 압축) 기능을 함께 사용하는 것이 좋습니다.
Q5. Responses API로 전환하면 속도가 빨라지나요?
공식 문서 기준으로 내부 테스트에서 SWE-bench 기준 GPT-5 사용 시 3% 성능 향상이 확인됐다고 합니다. 속도 측면에서는 실사용 후기를 보면 “Assistants API보다는 빠르지만 Chat Completions보다는 느리다”는 평가가 있습니다. file_search를 쓰는 경우 속도 개선은 크지 않다는 게 실사용자 피드백입니다.

▲ 목차로 돌아가기

마치며

OpenAI Assistants API 종료는 예정된 수순이고, 남은 시간은 약 5개월입니다. 코드 구조를 바꾸는 작업 자체는 그렇게 오래 걸리지 않습니다. 진짜 준비가 필요한 건 세 가지입니다. 첫째, RAG 기반 서비스라면 file_search 비용 구조를 새로 계산해야 합니다. 둘째, 동적으로 Assistant를 생성하는 아키텍처라면 Prompt 관리 방식을 재설계해야 합니다. 셋째, 기존 Thread 데이터를 보존해야 한다면 종료일 전에 변환 작업을 완료해야 합니다.

Responses API 자체는 잘 만든 API입니다. 구조가 단순해졌고, 기능도 더 많아졌습니다. 다만 “그냥 갈아끼우면 된다”는 생각으로 접근하면 특히 비용 면에서 기대하지 않은 결과를 만날 수 있습니다. 마이그레이션 전에 공식 가격 페이지와 마이그레이션 가이드를 한 번씩 직접 읽어보는 것을 권합니다.

이 포스팅은 2026년 3월 20일 기준 OpenAI 공식 Deprecations 문서, 마이그레이션 가이드, migrate-to-responses 가이드를 바탕으로 작성됐습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI Deprecations 공식 문서 — https://platform.openai.com/docs/deprecations
  2. OpenAI Assistants to Responses 마이그레이션 가이드 — https://platform.openai.com/docs/assistants/migration
  3. OpenAI Chat Completions → Responses 마이그레이션 가이드 — https://platform.openai.com/docs/guides/migrate-to-responses
  4. OpenAI Community — Assistants API beta deprecation 공지 스레드 — https://community.openai.com/t/…
  5. 실사용 마이그레이션 후기 (OpenAI Community, 2025.03.22) — https://community.openai.com/t/…

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI API 요금, 마이그레이션 일정, 기능 지원 범위는 OpenAI 공식 플랫폼 문서를 통해 최신 내용을 확인하시기 바랍니다. 본 포스팅에 기재된 가격 정보는 2026년 3월 20일 기준 OpenAI 공식 가격 페이지를 참고했으며, 이후 변경될 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기