IT/AI
GPT-5.4 Computer Use, 이 요금제에서만 됩니다
2026년 3월 5일, OpenAI가 GPT-5.4를 공개했습니다. 가장 화제가 된 건 Computer Use — AI가 마우스와 키보드를 직접 조작하는 기능입니다. 벤치마크 수치는 충격적입니다. OSWorld-Verified 기준 75.0%로, 인간 평균 72.4%를 처음으로 넘겼습니다 (출처: OpenAI 공식 발표, 2026.03.05). 그런데 막상 ChatGPT를 열면 이 기능을 바로 쓸 수 있는 건 아닙니다. 어떤 요금제에서, 어떤 경로로 써야 하는지 공식 문서를 직접 뜯어봤습니다.
GPT-5.4가 뭐가 다른지 먼저 짚고 가야 합니다
GPT-5.4가 이전 모델들과 결정적으로 다른 점은 딱 하나입니다. 범용 모델 최초로 Computer Use를 기본 탑재했다는 것입니다. 기존에도 Operator나 일부 에이전트 도구에서 유사 기능이 있었지만, GPT-5.3 Instant처럼 일반적으로 쓰는 대화 모델에서 직접 마우스·키보드 조작이 가능해진 건 이번이 처음입니다 (출처: OpenAI 공식 발표, 2026.03.05).
모델 라인업은 세 가지로 나뉩니다. 빠른 일상 작업용인 GPT-5.3 Instant, 복잡한 추론에 특화된 GPT-5.4 Thinking, 그리고 가장 무거운 장시간 작업용 GPT-5.4 Pro입니다. ChatGPT에서 기본으로 켜져 있는 건 Instant 모드이고, Thinking과 Pro는 별도로 선택해야 합니다 (출처: OpenAI Help Center, 2026.03.18 업데이트).
여기서 중요한 게 있습니다. GPT-5.4 Thinking은 GPT-5.4의 추론 모드이지, Computer Use 기능 그 자체가 아닙니다. 이 둘을 같은 것으로 이해하면 실제 사용에서 원하는 결과가 나오지 않을 수 있습니다.
| 모델 | 주요 용도 | Computer Use |
|---|---|---|
| GPT-5.3 Instant | 일상 대화·빠른 응답 | 미지원 |
| GPT-5.4 Thinking | 복잡한 추론·장문 분석 | API/Codex 한정 |
| GPT-5.4 Pro | 장시간 에이전트 작업 | API/Codex 한정 |
출처: OpenAI 공식 발표·Help Center 기준 (2026.03.05~18)
Computer Use, 요금제마다 접근 경로가 다릅니다
💡 공식 요금제 페이지와 헬프센터 문서를 같이 놓고 보니 처음엔 보이지 않던 조건 차이가 있었습니다. 모델 이름이 같아도 어느 경로로 접근하느냐에 따라 Computer Use 활성화 여부가 달라집니다.
솔직히 말하면, 많은 사람들이 “ChatGPT에서 GPT-5.4 Thinking 켜면 AI가 내 컴퓨터를 조종한다”고 이해하고 있는 것 같습니다. 그런데 그렇지 않습니다. ChatGPT 인터페이스에서 Thinking 모드를 선택하면 추론 능력이 올라가는 건 맞지만, Computer Use — 즉 AI가 실제로 마우스와 키보드를 조작하는 기능은 API 또는 Codex 에이전트 경로를 통해야 활성화됩니다 (출처: OpenAI 공식 발표 “Introducing GPT-5.4”, 2026.03.05).
ChatGPT 요금제별로 GPT-5.4 접근 방식을 정리하면 이렇습니다. Free/Go 플랜은 GPT-5.4 Thinking 자체를 수동으로 선택할 수 없고, Instant 모드에서 자동 전환 방식으로만 Thinking이 작동합니다. Plus 플랜은 모델 선택기에서 Thinking을 직접 선택 가능하고 주당 3,000회 한도가 붙습니다. Pro 플랜은 GPT-5.4 Pro까지 사용 가능하고 무제한(남용 방지 정책 준수 조건)입니다. GPT-5.4 Pro는 Plus에서 선택 불가입니다 (출처: ChatGPT 요금제 페이지, 2026.03 기준).
Codex 에이전트 접근은 Plus부터 가능합니다. Go 이하에서는 Codex 자체를 사용할 수 없고, Plus부터 Codex를 통해 Computer Use 기반 에이전트 작업이 활성화됩니다. 이 부분이 실제 사용에서 가장 혼동이 많은 지점입니다.
Plus에서 주당 3,000회라는 말의 실제 의미
Plus 플랜의 Thinking 한도는 주당 3,000회입니다. 처음 들으면 넉넉해 보입니다. 그런데 OpenAI 공식 헬프센터 문서에는 이 한도에 해당하지 않는 조건이 따로 있습니다.
💡 GPT-5.3 Instant에서 자동으로 GPT-5.4 Thinking으로 전환될 때는 주당 한도가 차감되지 않습니다. 직접 Thinking을 선택했을 때만 3,000회에서 깎입니다. 공식 헬프센터에 이 조건이 명시돼 있습니다 (출처: OpenAI Help Center, 2026.03.18).
쉽게 말하면 이렇습니다. Instant 모드로 대화하다가 ChatGPT가 판단해서 Thinking으로 넘어가는 건 공짜입니다. 하지만 처음부터 Thinking을 직접 선택해서 쓰면 주당 3,000회에서 1씩 줄어듭니다. 주당 3,000회를 7일로 나누면 하루 약 428회 — 업무 집중적으로 쓰는 사람이라면 생각보다 빠르게 소진될 수 있습니다.
또 하나, Thinking 모드의 컨텍스트 창이 요금제에 따라 크게 다릅니다. Plus에서 Thinking 선택 시 256K(입력 128K + 출력 128K), Pro 플랜은 400K(입력 272K + 출력 128K)입니다. Instant 모드는 Plus 기준 32K입니다 (출처: OpenAI Help Center, 2026.03.18). 컨텍스트 창 크기가 8배 이상 차이 나는 경우도 있는 셈입니다.
추가로, Thinking 모드에서 “생각 시간 강도” 설정이 생겼습니다. Standard(기본)와 Extended는 Plus/Business에서 가능하고, Light(가장 빠름)와 Heavy(가장 깊은 추론)는 Pro 전용입니다. 이 부분도 처음에는 잘 안 보이는 조건입니다.
벤치마크 75%가 실제 사용에서 의미하는 한계
💡 GPT-5.4가 OSWorld에서 75%를 기록했다는 수치와, 실제 작업에서 어떤 유형의 오류가 나오는지 — 이 두 가지를 같이 보면 벤치마크가 어떤 조건에서 측정된 건지가 보입니다.
OSWorld-Verified 기준 GPT-5.4는 75.0%를 기록했고, 이는 인간 기준선인 72.4%를 처음으로 넘긴 수치입니다. GPT-5.2의 47.3% 대비 27.7%포인트 상승한 것으로, 수치 자체는 인상적입니다 (출처: OpenAI 공식 발표, 2026.03.05). 이 수치가 뜻하는 건 통제된 데스크탑 환경에서 정해진 작업을 수행할 때의 성공률입니다.
그런데 실제 테스트 결과는 좀 다른 이야기를 합니다. 독립적인 블라인드 평가(GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1, 6개 구조화 과제)를 진행한 사례에서, GPT-5.4 Thinking은 세 살짜리도 풀 법한 문제에서 틀렸습니다. “세차장이 100m 거리에 있는데 걷거나 차를 몰아야 하나요?” — 세차하려면 차가 세차장에 있어야 하므로 당연히 차를 몰고 가야 합니다. Claude와 Gemini는 바로 맞췄고, GPT-5.4는 “걷는 게 낫다”는 긴 에세이를 썼습니다 (출처: Nate’s Newsletter 블라인드 평가, 2026.03.07). 이 결과가 뜻하는 건, Thinking 모드가 논리를 펼치는 능력과 상황 맥락을 즉각 파악하는 능력이 반드시 비례하지는 않는다는 것입니다.
보안 측면에서도 조건이 있습니다. Computer Use를 실제 환경에 연동할 때, GPT-5.4가 외부에서 주입된 명령을 실행할 수 있다는 위험이 실측으로 확인됐습니다. 같은 주에 “Clinejection 공격”으로 4,000대 개발자 머신이 악성 GitHub 이슈를 통해 감염됐고, 이 공격 경로는 AI가 컨텍스트를 읽고 명령을 실행하는 구조를 이용한 것이었습니다 (출처: Towards AI, 2026.03.09). 에이전트 작업에 Computer Use를 붙이기 전에 신뢰할 수 없는 입력 소스를 차단해야 하는 이유입니다.
정리하면, 벤치마크 수치는 통제된 조건에서의 성공률입니다. 실제 사용 환경은 더 많은 변수가 있고, 특히 보안 관련 조건은 별도로 챙겨야 합니다.
자동 전환이 한도를 아껴주는 구조
이 부분이 기존 소개 글에서 잘 다뤄지지 않은 지점입니다. Instant 모드를 켜두면 ChatGPT가 요청의 복잡도를 판단해서 자동으로 Thinking을 붙이거나 빼줍니다. 이렇게 자동으로 Thinking이 발동하는 경우, Plus 플랜의 주당 3,000회 한도에서 제외됩니다 (출처: OpenAI Help Center, 2026.03.18). 한도를 신경 쓰는 입장에서 이건 생각보다 중요한 구조입니다.
반면에, 모델 선택기에서 직접 Thinking 또는 Pro를 고른 뒤 대화를 시작하면 그때부터 매 메시지가 한도에서 깎입니다. 짧은 질문에도 Thinking 모드를 붙여두면, 쓸데없이 한도를 소모하는 일이 생길 수 있습니다. 공식 헬프센터 문서에서는 “Configure 메뉴에서 자동 전환을 켜거나 끌 수 있다”고 명시돼 있습니다 (출처: OpenAI Help Center, 2026.03.18). 짧은 일상 질문은 Instant로 두고, 복잡한 작업에서만 Thinking을 직접 켜는 게 한도 측면에서 유리합니다.
추가로, 주당 3,000회 한도를 다 소진해도 자동 전환으로 발동하는 Thinking은 여전히 쓸 수 있습니다. 즉 한도를 다 쓴 뒤에도 Instant로 대화하다 보면 복잡한 요청에선 자동으로 Thinking이 붙는 경우가 있습니다. OpenAI가 이유를 별도로 밝히지 않은 부분이지만, 공식 문서에 그대로 나와 있는 내용입니다.
요금제별 컨텍스트 창 차이도 실전에선 큽니다
GPT-5.4를 쓸 때 컨텍스트 창 크기를 모르면 중간에 대화가 끊기거나 이전 내용을 기억 못 하는 상황이 생깁니다. 공식 페이지 기준으로 정리하면, Free 플랜은 16K, Plus/Business는 Instant 32K · Thinking 256K, Pro/Enterprise는 Instant 128K · Thinking(Pro) 400K입니다 (출처: ChatGPT 요금제 페이지, 2026.03 기준). Instant와 Thinking 모드 사이에서만 최대 8배 차이가 납니다.
💡 GPT-5.4는 Codex 환경에서 1M 토큰 컨텍스트를 지원한다고 홍보됩니다. 그런데 이건 ChatGPT 대화 창의 컨텍스트 창과 다른 개념입니다. Codex에서의 1M 컨텍스트는 코드베이스 전체를 한 번에 넣는 에이전트 작업에서 적용되고, ChatGPT 채팅 인터페이스에서의 컨텍스트 창 한도는 위에서 설명한 요금제 기준을 따릅니다 (출처: OpenAI 공식 발표, 2026.03.05).
긴 문서를 분석하거나 소스코드를 다룰 때, Plus 기준 Thinking에서 256K(약 19만 단어)는 상당히 넓은 편입니다. 다만 복잡한 멀티파일 코드베이스나 수백 페이지 이상의 문서를 한 번에 다루려면 Pro 이상이 실질적입니다. GDPval 벤치마크 기준 GPT-5.4는 83.0%로 GPT-5.2 71.0% 대비 12%포인트 높은 전문가 수준 작업 성공률을 보였습니다 (출처: OpenAI 공식 발표, 2026.03.05). 이 수치는 44개 화이트칼라 직종 기준 AI가 수행 가능한 작업 비율입니다.
API를 통해 개발자 환경에서 사용할 때의 가격도 확인해두면 좋습니다. gpt-5.4 기준 입력 토큰 100만 개당 $2.50, 출력 100만 개당 $15입니다. gpt-5.4-pro는 입력 100만 개당 $30, 출력 100만 개당 $180입니다 (출처: OpenAI 공식 발표, 2026.03.05). Pro와 일반의 API 비용 차이가 입력 기준 12배라는 점은 실제 서비스 구축 시 중요한 숫자입니다.
| 요금제 | Instant 컨텍스트 | Thinking 컨텍스트 | GPT-5.4 Pro |
|---|---|---|---|
| Free | 16K | 불가 | ✗ |
| Go | 32K | Thinking mini만 | ✗ |
| Plus | 32K | 256K (주 3,000회) | ✗ |
| Business | 32K | 256K | 크레딧 추가 |
| Pro/Enterprise | 128K | 400K | ✓ 무제한* |
*남용 방지 정책 준수 조건 / 출처: ChatGPT 요금제 페이지·Help Center (2026.03)
Q&A
Q. Plus 플랜에서 GPT-5.4로 Computer Use를 바로 쓸 수 있나요?
ChatGPT 인터페이스에서 Thinking 모드를 선택하는 것만으로는 Computer Use가 활성화되지 않습니다. Computer Use는 API 또는 Codex 에이전트 경로로 접근해야 하고, Plus 플랜에서는 Codex 사용이 가능하므로 Codex를 통해 Computer Use 기반 작업을 할 수 있습니다 (출처: OpenAI 공식 발표, 2026.03.05).
Q. 주당 3,000회 한도를 다 쓰면 Thinking을 전혀 못 쓰나요?
수동으로 Thinking을 선택하는 건 막히지만, Instant 모드에서 자동 전환으로 발동하는 Thinking은 한도 소진 이후에도 작동할 수 있습니다. 다만 자동 전환 여부는 ChatGPT가 요청 복잡도를 판단해 결정하므로, 직접 제어는 불가능합니다 (출처: OpenAI Help Center, 2026.03.18).
Q. GPT-5.4 Pro는 왜 Plus에서 선택이 안 되나요?
공식 요금제 페이지 기준으로 GPT-5.4 Pro는 Pro, Business(크레딧 추가), Enterprise 플랜에서만 이용 가능합니다. OpenAI가 공식 답변을 내놓지 않은 부분이지만, 운용 비용이 gpt-5.4-pro API 기준 입력 100만 개당 $30으로 일반 GPT-5.4($2.50)의 12배이므로 플랜 분리가 유지되고 있습니다 (출처: OpenAI 공식 발표, 2026.03.05).
Q. OSWorld 75%가 인간보다 높다는데 실제로도 사람보다 컴퓨터를 잘 쓰나요?
OSWorld-Verified 벤치마크는 통제된 환경에서 정해진 데스크탑 작업 완료율을 측정합니다. 실제 환경에서는 예측 불가능한 입력, 보안 이슈, 애플리케이션 UI 변화 등의 변수가 더 많습니다. 또한 독립 실측 평가에서 GPT-5.4 Thinking이 맥락 파악 실패 사례를 보인 것도 확인됐습니다. 벤치마크 수치와 실제 업무 자동화 성공률은 별개로 봐야 합니다 (출처: Nate’s Newsletter 블라인드 평가, 2026.03.07).
Q. GPT-4o, GPT-4.1은 이제 완전히 사라진 건가요?
2026년 2월 13일자로 ChatGPT에서 GPT-4o, GPT-4.1, GPT-4.1 mini 등이 은퇴 처리됐습니다. API 접근은 별도로 유지됩니다. Business/Enterprise의 Custom GPT 내 GPT-4o는 2026년 4월 3일까지 한시적으로 유지됩니다 (출처: OpenAI Help Center, 2026.02.13 기준).
마치며
GPT-5.4의 Computer Use는 분명 의미 있는 진전입니다. 인간 기준선을 넘긴 OSWorld 수치는 숫자 그 이상의 신호입니다. 하지만 이 기능이 내 ChatGPT 화면에서 바로 켜지는 건 아닙니다. 요금제에 따라 접근 경로가 다르고, Plus에서는 Codex를 거쳐야 합니다. Thinking 모드의 주당 3,000회 한도와 자동 전환 조건도 알아두면 실제 사용에서 차이가 납니다.
개인적으로는, 지금 당장 Computer Use를 업무에 붙이려면 Codex를 통한 API 접근이 현실적인 방법이라고 봅니다. ChatGPT 대화 인터페이스만으로는 아직 “AI가 내 컴퓨터를 직접 조종한다”는 느낌까지는 오지 않습니다. 그 선까지 오려면 아마 요금제 진입 장벽이나 에이전트 설정 과정이 좀 더 단순화돼야 할 것 같습니다.
보안 측면은 신경 쓰이는 부분입니다. AI가 컨텍스트를 읽고 행동을 취하는 구조는 의도치 않은 명령 주입 공격에 취약합니다. 업무 환경에 연동하기 전에 입력 소스 신뢰도를 먼저 점검하는 게 순서라고 생각합니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com/ko-KR/index/introducing-gpt-5-4/)
- OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (help.openai.com/en/articles/11909943)
- ChatGPT 공식 요금제 페이지 (chatgpt.com/pricing/)
- Nate’s Newsletter — GPT-5.4 블라인드 평가 보고서 (2026.03.07)
- Towards AI — The “Thinking” Feature in GPT-5.4 Is Actually a Warning Label (2026.03.09)
본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금제 정보, 모델 한도, 기능 접근 조건은 OpenAI 공식 페이지에서 최신 내용을 직접 확인하시기 바랍니다. 본 포스팅의 수치는 OpenAI 공식 발표 및 Help Center 자료를 기반으로 작성됐습니다.











댓글 남기기