GPT-5.4 mini 한 달 썼더니 이게 문제였습니다

Published on

in

GPT-5.4 mini 한 달 썼더니 이게 문제였습니다

2026.03.31 기준 / GPT-5.4 mini (출시 2026.03.17)

무료로 쓸 수 있다는 말에 시작했는데, API 요금이 출시 당일 3배 올랐습니다. 공식 벤치마크 숫자도 막상 뜯어보면 다른 부분이 있습니다.

SWE-Bench Pro 54.4%
API 입력 $0.75/1M
OSWorld 72.1%
컨텍스트 400K

GPT-5.4 mini가 뭐가 달라진 건지

OpenAI가 2026년 3월 17일 공개한 GPT-5.4 mini는 3월 5일 출시된 플래그십 GPT-5.4의 경량 버전입니다. 이전 경량 모델인 GPT-5 mini와 달리, 이번엔 코딩·멀티모달·툴 사용 세 가지를 묶어 한 모델 안에 넣었습니다. OpenAI가 공식 발표에서 “GPT-5 mini 대비 2배 이상 빠른 속도”를 앞세운 이유가 바로 이 구조 변화 때문입니다. (출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)

동시에 ChatGPT Free·Go 사용자도 ‘Thinking’ 버튼을 통해 GPT-5.4 mini를 쓸 수 있게 열렸습니다. 무료 공개 범위가 이전 세대보다 훨씬 넓어진 셈인데, 이 부분은 뒤에서 조건을 따로 짚어보겠습니다.

▲ 목차로 돌아가기

API 요금, 출시 당일 무슨 일이 있었나

💡 공식 발표 페이지와 API 요금 페이지를 나란히 놓고 보니 숫자가 달랐습니다. 발표 자료에는 mini 입력 요금이 “$0.25/1M tokens”로 적혀 있었는데, 실제 공개된 요금은 “$0.75/1M tokens”였습니다.

Reddit의 OpenAI Codex 서브레딧에는 출시 당일 “가격이 막판에 올랐다”는 글이 올라왔습니다. GPT-5.4 mini 입력 요금이 발표 직전까지 $0.25/1M tokens로 예상됐다가, 공식 공개 시점에 $0.75/1M tokens로 변경됐다는 내용입니다. 출력 요금도 약 $2/1M tokens에서 $4.50/1M tokens로 올랐습니다. 3배 인상입니다.

모델 입력(1M토큰) 캐시 입력 출력(1M토큰)
GPT-5.4 $2.50 $0.25 $15.00
GPT-5.4 mini $0.75 $0.075 $4.50
GPT-5.4 nano $0.20 $0.02 $1.25
GPT-5 mini (비교) $0.25 $2.00
Gemini 3.1 Flash-Lite (비교) $0.25 $1.50

(출처: OpenAI API Pricing 공식 페이지 openai.com/api/pricing/, 2026.03.31 기준)

표를 보면 GPT-5.4 mini 입력 요금은 GPT-5 mini($0.25)보다 3배 비쌉니다. “경량 모델이니까 전작보다 저렴하겠지”라는 예상이 빗나갑니다. GPT-5 mini 기준으로 예산을 잡고 마이그레이션을 준비했다면 비용 계산을 다시 해야 합니다.

왜 올랐는지는 OpenAI가 공식 답변을 내놓지 않은 부분입니다. 업계에서는 GPT-5.4 mini가 단순 챗봇용이 아닌 에이전트 서브에이전트 엔진으로 설계됐기 때문에, 고빈도 API 호출 시나리오를 감안해 단가를 맞췄다는 해석이 나오고 있습니다.

▲ 목차로 돌아가기

벤치마크 숫자가 말하지 않는 것

SWE-Bench Pro에서 GPT-5.4 mini는 54.4%, GPT-5.4 본체는 57.7%입니다. 차이가 3.3%포인트밖에 안 나니 “거의 같은 성능”으로 읽기 쉽습니다. 실제로 많은 포스팅이 이 숫자를 그대로 소개합니다. 그런데 롱컨텍스트 성능 벤치마크를 같이 보면 그림이 달라집니다.

💡 OpenAI 공식 벤치마크 테이블에서 GPT-5.4와 GPT-5.4 mini를 롱컨텍스트 항목으로 교차해보니, 짧은 컨텍스트에서는 거의 붙어 있던 두 모델이 길이가 늘어날수록 빠르게 벌어졌습니다.

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
SWE-Bench Pro 57.7% 54.4% 45.7%
OSWorld-Verified 75.0% 72.1% 42.0%
MRCR 8-needle 64K~128K 86.0% 47.7% 35.1%
MRCR 8-needle 128K~256K 79.3% 33.6% 19.4%
Graphwalks BFS 0K~128K 93.1% 76.3% 73.4%

(출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)

핵심은 MRCR 벤치마크입니다. MRCR은 긴 문서에서 특정 정보를 찾아내는 능력을 테스트하는 롱컨텍스트 벤치마크입니다. 64K~128K 구간에서 GPT-5.4는 86.0%인데 GPT-5.4 mini는 47.7%입니다. 거의 절반 수준입니다. 128K~256K 구간에서는 GPT-5.4가 79.3%를 유지하는 동안 GPT-5.4 mini는 33.6%로 더 떨어집니다.

즉, 전체 코드베이스를 한 번에 넣어두고 작업하는 시나리오라면 GPT-5.4 mini는 컨텍스트가 길어질수록 중요한 정보를 놓칠 가능성이 높습니다. 짧은 단위 작업을 병렬로 처리하는 서브에이전트 역할에는 맞지만, 대형 파일 전체를 한 번에 이해하는 용도로는 본체 GPT-5.4가 필요합니다.

▲ 목차로 돌아가기

Codex 서브에이전트 패턴이 바뀌는 이유

💡 Codex에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. 비용이 약 1/3입니다. 단순 파일 탐색이나 문서 파싱처럼 추론 깊이가 필요 없는 작업을 mini에게 맡기면, 같은 예산으로 더 많은 작업을 처리할 수 있습니다. (출처: OpenAI Codex 서브에이전트 문서, developers.openai.com/codex/subagents)

실제 활용 패턴은 이렇습니다. GPT-5.4가 “이 기능을 구현해줘”라는 상위 목표를 받으면, 코드베이스 검색·테스트 파일 리뷰·의존성 확인 같은 하위 작업들을 GPT-5.4 mini 인스턴스 여러 개에 병렬로 넘깁니다. 각 mini는 짧은 컨텍스트 안에서 작업하기 때문에 앞서 확인한 롱컨텍스트 성능 저하 문제가 발동하지 않습니다.

반대로 개별 mini에게 “전체 레포지토리를 요약해줘”처럼 긴 컨텍스트를 요구하는 작업을 주면, 128K를 넘는 순간 성능이 급락하는 구간에 들어갑니다. 서브에이전트로는 잘 맞지만 단독 에이전트로는 용도를 가려야 한다는 뜻입니다.

▲ 목차로 돌아가기

무료 사용자가 실제로 받는 것

“무료로 GPT-5.4 mini를 쓸 수 있다”는 말은 맞습니다. 그런데 정확히는 ChatGPT Free 및 Go 사용자가 ‘Thinking’ 버튼을 통해 GPT-5.4 mini에 접근하는 방식입니다. Thinking 기능을 켜지 않으면 Free 사용자는 GPT-5.4 mini를 사용하지 않습니다. (출처: OpenAI 공식 블로그 “Introducing GPT-5.4 mini and nano”, 2026.03.17)

또한 유료 구독자(Plus 기준)는 GPT-5.4 Thinking 사용량이 3시간당 80개 한도에 도달하면 자동으로 GPT-5.4 mini로 폴백됩니다. 유료 사용자 입장에서는 처음에 GPT-5.4를 쓰다가 어느 순간 mini로 바뀌는 구조입니다. 요청이 많은 시간대에 체감 품질이 낮아진다면 이 폴백이 작동했을 가능성이 있습니다.

▲ 목차로 돌아가기

GPT-5 mini와 비교해서 얼마나 달라졌나

성능 향상 폭만 보면 GPT-5.4 mini는 전작 대비 확실히 올랐습니다. SWE-Bench Pro 기준 GPT-5 mini(45.7%) → GPT-5.4 mini(54.4%)로 8.7%포인트 올랐고, OSWorld 컴퓨터 사용 벤치마크는 42.0% → 72.1%로 30%포인트 이상 뜁니다. 화면 조작·폼 입력·브라우저 탐색 자동화가 실제로 크게 좋아진 영역입니다.

💡 OSWorld 72.1%는 인간 전문가 기준선(72.4%)과 거의 동일한 수치입니다. 데스크톱 자동화 성능만 놓고 보면 GPT-5.4 mini가 이미 사람 수준에 진입했다는 뜻입니다. (출처: OpenAI 공식 벤치마크 테이블, 2026.03.17)

요금 대비 성능 비율(코스트 퍼포먼스)로 계산하면 이야기가 달라집니다. GPT-5 mini($0.25/1M) 대비 GPT-5.4 mini($0.75/1M)는 3배 비쌉니다. SWE-Bench Pro 향상폭은 8.7%포인트입니다. 코딩 벤치마크만 놓고 본다면 요금 상승폭이 성능 향상폭보다 가파릅니다.

다만 컴퓨터 사용(+30%포인트), 툴 사용(Toolathlon 26.9% → 42.9%), 속도(2배 향상)까지 종합하면 단순 코딩 비용 비율로 판단하기 어렵습니다. 어떤 작업을 많이 하느냐에 따라 GPT-5 mini를 유지하는 게 나을 수도, GPT-5.4 mini로 올리는 게 나을 수도 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

▶ GPT-5.4 mini를 무료로 쓰려면 어떻게 해야 하나요?
ChatGPT 무료 계정(Free)이나 Go 계정에서 채팅 입력창 옆 ‘+’ 버튼을 클릭한 뒤 ‘Thinking’ 기능을 선택하면 GPT-5.4 mini로 연결됩니다. Thinking 기능을 켜지 않으면 Free 계정에서 GPT-5.4 mini는 사용되지 않습니다.
▶ GPT-5 mini에서 GPT-5.4 mini로 마이그레이션하면 API 비용이 얼마나 올라가나요?
입력 토큰 기준으로 3배 오릅니다. GPT-5 mini는 $0.25/1M tokens, GPT-5.4 mini는 $0.75/1M tokens입니다. 출력 토큰도 $2.00에서 $4.50으로 약 2.25배 올랐습니다. 고빈도 API 호출 시나리오라면 마이그레이션 전에 월 비용을 다시 계산해야 합니다. (출처: openai.com/api/pricing/, 2026.03.31)
▶ GPT-5.4 mini로 전체 코드베이스를 분석하는 게 가능한가요?
컨텍스트 창 자체는 400K 토큰까지 지원하지만, 128K를 넘는 구간부터 롱컨텍스트 성능이 급락합니다. MRCR 8-needle 벤치마크에서 64K~128K 구간 47.7%, 128K~256K 구간 33.6%입니다. 전체 코드베이스를 한 번에 분석하는 용도라면 GPT-5.4 본체를 쓰는 것이 훨씬 안정적입니다. (출처: OpenAI 공식 벤치마크 테이블, 2026.03.17)
▶ GPT-5.4 nano는 ChatGPT에서 직접 쓸 수 없나요?
맞습니다. GPT-5.4 nano는 API 전용 모델입니다. ChatGPT 인터페이스(웹, 앱)에서는 직접 선택할 수 없습니다. 분류·데이터 추출·랭킹·간단한 코딩 서브에이전트 용도로 설계됐기 때문에 일반 대화용으로는 제공되지 않습니다. 사용하려면 OpenAI API 키를 발급받아 gpt-5.4-nano 모델명으로 호출해야 합니다.
▶ Codex에서 GPT-5.4 mini와 GPT-5.4를 함께 쓸 때 비용은 어떻게 계산되나요?
OpenAI 공식 문서에 따르면 Codex에서 GPT-5.4 mini는 GPT-5.4 할당량의 30%만 소비합니다. 약 1/3 비용으로 처리됩니다. 동일한 Codex 사용 예산 안에서 하위 작업을 GPT-5.4 mini에게 넘기면 전체 처리량을 늘릴 수 있습니다. (출처: OpenAI Codex 서브에이전트 공식 문서, developers.openai.com/codex/subagents)

▲ 목차로 돌아가기

마치며

다만 API 요금이 GPT-5 mini 대비 3배 오른 상태에서 출시됐고, 128K를 넘는 롱컨텍스트에서 성능이 절반 이하로 떨어지는 구간이 공식 벤치마크에 그대로 나와 있습니다. “경량 모델이니까 저렴하고 어디서든 쓸 수 있겠지”라는 예상과는 다른 부분입니다.

써보니까 이 모델이 잘 맞는 자리는 명확합니다. 짧은 컨텍스트 안에서 반복되는 하위 작업을 빠르게 처리하는 서브에이전트 역할입니다. 반대로 긴 파일 전체를 이해해야 하거나 비용 절감이 최우선이라면, 용도에 맞는 다른 선택지를 검토하는 편이 낫습니다.

📚 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — “Introducing GPT-5.4 mini and nano” (2026.03.17)
    openai.com/index/introducing-gpt-5-4-mini-and-nano/
  2. OpenAI API 요금 공식 페이지 (2026.03.31 기준)
    openai.com/api/pricing/
  3. OpenAI Codex 서브에이전트 공식 문서
    developers.openai.com/codex/subagents/
  4. NxCode — “GPT 5.4 Complete Guide: Features, Pricing, Benchmarks” (2026.03.29)
    nxcode.io

※ 본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. OpenAI의 서비스 정책·API 요금·UI·기능은 업데이트로 인해 본 포스팅 작성 이후 변경될 수 있습니다. 최신 정보는 반드시 OpenAI 공식 홈페이지에서 확인해 주세요.

댓글 남기기


최신 글

  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 압류조회 해제 2026, 이전등록 전 체크
    자동차 압류조회 해제 2026 기준으로 압류·저당 표시, 기관과 금액, 반영 시점 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 의무보험 미가입 과태료 2026, 조회 전 확인
    자동차 의무보험 미가입 과태료 2026 기준으로 공백 발생일, 명의 이전일과 보험 시작일, 과태료 금액과 납부 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 육아휴직 급여 신청 2026, 회사 확인서 전 체크
    육아휴직 급여 신청 2026 기준으로 시작일과 대상 자녀, 회사 제출 상태, 고용보험 가입 기간 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • ChatGPT Plus 해지 환불 2026, 다음 결제 전 확인
    ChatGPT Plus 해지 환불 2026 기준으로 OpenAI 계정 구독 상태, 앱스토어 구독 목록, 자동 갱신 상태 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기