GPT-5.3 Instant, 환각 27% 줄었는데 이 수치는 빠졌습니다

2026.03.03 기준 / GPT-5.3 Instant (gpt-5.3-chat-latest)

OpenAI가 3월 3일 GPT-5.3 Instant를 공개하면서 “환각 최대 27% 감소”를 앞세웠습니다. 그런데 같은 날 함께 공개된 공식 안전 카드(Safety Card)에는 이전 모델 대비 오히려 후퇴한 항목이 두 개나 적혀 있었습니다. 발표 자료에서는 빠진 그 수치, 직접 확인했습니다.

🔍 웹 검색 환각 감소 26.8%

🧠 내부 지식 환각 감소 19.7%

⚠️ HealthBench 55.4% → 54.1%

⚠️ 한국어 자연스러움 여전히 미해결

전작인 GPT-5.2 Instant는 2025년 12월 출시 직후부터 “너무 조심스럽다”는 피드백이 쏟아졌습니다. 질문에 바로 답하지 않고 “이 주제는 복잡하기 때문에…”로 시작하는 전제 문장이 길었고, 민감하지 않은 질문도 거절하거나 경고 문구를 붙이는 경우가 잦았습니다. OpenAI는 이를 직접 “cringe(민망한) 톤”이라고 표현하며 해결 과제로 명시했습니다. (출처: OpenAI 공식 블로그, 2026.03.03)

▲ 목차로 돌아가기

환각 27% 감소, 숫자 뒤에 있는 조건 두 가지

“환각 최대 27% 감소”는 OpenAI 공식 블로그 제목급 문장입니다. 그런데 이 수치는 두 가지 평가 방식을 혼용한 결과입니다. OpenAI는 공식 발표문에서 이를 나란히 공개했습니다. (출처: openai.com/index/gpt-5-3-instant/, 2026.03.03)

평가 방식	웹 검색 사용 시	내부 지식 사용 시
고위험 도메인 평가 (의료·법률·금융)	26.8% 감소	19.7% 감소
사용자 피드백 평가 (실제 오류 신고 기반)	22.5% 감소	9.6% 감소

출처: OpenAI 공식 블로그 (openai.com/index/gpt-5-3-instant/), 2026.03.03

첫 번째 평가는 의료·법률·금융처럼 오류가 위험한 고위험 도메인을 의도적으로 어렵게 설계한 내부 벤치마크입니다. 두 번째는 실제 사용자가 “사실 오류”로 신고한 대화를 모아 만든 평가셋입니다. 두 방식 모두 OpenAI 내부 지표이며, 외부 독립 벤치마크 결과는 아직 공개되지 않았습니다.

“최대 27% 감소”라는 헤드라인은 가장 좋은 조건(웹 검색 + 고위험 도메인 평가)의 수치입니다. 내부 지식만 쓰고 일반 대화에서의 개선폭은 9.6%로, 같은 업데이트에서 나온 수치 중 가장 낮습니다. 조건에 따라 체감은 크게 달라질 수 있습니다.

▲ 목차로 돌아가기

공식 안전 카드에서 확인된 후퇴 항목

💡 공식 발표문과 안전 카드를 나란히 놓고 보니 이런 차이가 보였습니다. 발표 블로그에서는 환각 감소 수치를 강조했지만, 같은 날 공개된 안전 카드에는 이전 모델보다 오히려 나빠진 항목이 명시돼 있습니다.

OpenAI는 GPT-5.3 Instant 출시와 동시에 deploymentsafety.openai.com/gpt-5-3-instant/disallowed-content에 공식 안전 카드를 공개했습니다. 발표 블로그에는 나오지 않는 항목이 여기에 있습니다. (출처: OpenAI Safety Card, 2026.03.03)

⚠️ 공식 안전 카드 명시 사항

성적 불법 콘텐츠(disallowed sexual content): GPT-5.2 및 GPT-5.1 대비 후퇴 확인
자해(self-harm): GPT-5.2 대비 표준·동적 평가 모두에서 후퇴 확인
그래픽 폭력·폭력적 불법 행동은 후퇴했으나 통계적 유의성 낮음

출처: deploymentsafety.openai.com/gpt-5-3-instant/disallowed-content, 2026.03.03

OpenAI는 이 사실을 숨기지 않았습니다. 오히려 카드에 “시스템 수준의 안전 장치(system-level safeguards)를 ChatGPT에 배포해 완화하고 있다”고 적었습니다. 온라인 실험(실제 배포 후 모니터링)에서는 자해 관련 불량 응답이 증가하지 않았다고도 밝혔습니다. 안전 카드의 수치가 실 배포 환경과 반드시 일치하지는 않는다는 뜻입니다.

HealthBench 결과도 같은 패턴입니다. GPT-5.2 Instant가 55.4%였던 종합 점수가 GPT-5.3에선 54.1%로 내려갔습니다. (출처: deploymentsafety.openai.com/gpt-5-3-instant/) 약 1.3%p 차이지만, 이 평가는 5,000개 의료 대화를 기반으로 한 OpenAI의 자체 의료 성능 벤치마크입니다. 대화 자연스러움을 높이면서 의료 정보 정확성이 소폭 희생됐습니다.

▲ 목차로 돌아가기

한국어 사용자에게 직접 영향 미치는 공식 한계

💡 “환각이 줄었다”는 발표 앞에 한국어 사용자가 먼저 확인해야 할 공식 문장이 따로 있습니다. OpenAI가 블로그 본문에 직접 적어둔 내용입니다.

OpenAI는 GPT-5.3 Instant 공식 발표문에 아래 문장을 그대로 남겼습니다.

“Non-English languages: The response style of ChatGPT in some languages—such as Japanese and Korean—can sound stilted or overly literal. Improving tone and naturalness across languages remains an ongoing focus.”

출처: openai.com/index/gpt-5-3-instant/, 2026.03.03

직역하면 “한국어·일본어는 여전히 어색하거나 너무 직역체로 들릴 수 있다”는 뜻입니다. 개선됐다는 말이 아닙니다. 해결 과제로 명시한 것입니다.

이 문장이 중요한 이유는 GPT-5.3 Instant의 가장 큰 업그레이드 포인트가 “자연스러운 대화 흐름”이기 때문입니다. 영어로는 확실히 개선됐다고 평가받는 그 개선이, 한국어에서는 아직 적용이 덜 됐다는 뜻입니다. “Stop. Take a breath.” 같은 표현은 줄었을 수 있어도, 한국어 특유의 어색한 문어체 번역투는 여전히 남아 있을 가능성이 높습니다.

VentureBeat도 같은 내용을 별도로 확인해 보도했습니다. (출처: VentureBeat, 2026.03.03) 영어로 GPT-5.3 Instant를 쓰는 사람과 한국어로 쓰는 사람이 체감하는 개선폭은 다를 수 있습니다.

▲ 목차로 돌아가기

3월 16일 2차 업데이트에서 달라진 것

📋 3월 16일 업데이트 내용

후속 응답의 톤(어조) 개선
응답에서 “티저(낚시)형 표현” 감소

예: “원하신다면…”, “믿기 힘들겠지만…”, “제가 이 세 가지를 말씀드릴게요…”

출처: OpenAI Model Release Notes, 2026.03.16

3월 3일 첫 릴리스에서 이미 대화 톤을 개선했는데, 불과 13일 만에 추가 톤 수정이 나왔다는 건 3월 3일 버전도 완전하지 않았다는 뜻입니다. OpenAI는 단순 버전 번호만 올리는 방식이 아니라 같은 5.3 버전 내에서 조용히 업데이트를 배포하고 있습니다.

참고로 GPT-5.4 mini가 3월 18일 출시됐습니다. GPT-5.3 Instant가 나온 지 15일 만입니다. 이는 다음 섹션과 연결됩니다.

▲ 목차로 돌아가기

💡 타임라인을 실제 날짜 순으로 정렬하니 이런 흐름이 보였습니다. GPT-5.3은 성능 점프가 아닌 사용자 불만 대응용으로 설계됐고, GPT-5.4는 처음부터 다른 목적으로 준비됐습니다.

날짜	출시 내용	핵심 목적
2026.03.03	GPT-5.3 Instant	톤·환각 개선 (사용자 불만 대응)
2026.03.05	GPT-5.4 Thinking	추론·코딩·에이전트 통합
2026.03.16	GPT-5.3 Instant 2차 업데이트	티저 표현 제거, 톤 추가 조정
2026.03.18	GPT-5.4 mini	추론 모델 쿼터 소진 시 대체

출처: OpenAI Model Release Notes (help.openai.com/ko-kr/articles/9624314)

이 흐름에서 GPT-5.3 Instant의 역할이 보입니다. GPT-5.4 개발이 이미 진행 중인 상태에서, 5.2로 인한 사용자 불만을 빠르게 해소하기 위한 중간 패치에 가깝습니다. 성능을 크게 올리는 대신 사용자 체감 품질에 집중했습니다. 그래서 안전 지표 일부에서 후퇴가 생겼고, 한국어 자연스러움도 아직 미해결입니다.

좋게 보면 빠른 반응이고, 달리 보면 근본적인 개선 전에 사용자를 달래는 릴리스입니다. 무료 사용자 입장에서는 이미 쓸 수 있고 개선된 건 사실이지만, 기대 수준을 조정할 필요는 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

▶ GPT-5.3 Instant는 무료 플랜에서 쓸 수 있나요?

네, 무료 플랜(Free 티어)에서도 사용 가능합니다. 단, 무료는 3시간에 10회 한도가 있습니다. Plus·Go 유료 사용자는 3시간에 160회 사용할 수 있습니다. 한도 소진 후에는 GPT-5.4 mini로 자동 전환됩니다. (출처: OpenAI Help Center, help.openai.com/en/articles/11909943)

▶ GPT-5.2 Instant는 언제까지 쓸 수 있나요?

유료 사용자(Plus·Pro·Team 등)는 모델 선택기의 “레거시 모델” 섹션에서 GPT-5.2 Instant를 2026년 6월 3일까지 사용할 수 있습니다. 이후 완전 종료됩니다. 무료 사용자는 이미 GPT-5.3이 기본값으로 적용돼 있습니다. (출처: OpenAI 공식 블로그, 2026.03.03)

▶ API에서는 어떤 모델 명칭을 써야 하나요?

API에서는 gpt-5.3-chat-latest로 호출합니다. OpenAI가 공식 발표문에서 직접 명시한 문자열입니다. (출처: openai.com/index/gpt-5-3-instant/, 2026.03.03) 개발자는 이 값을 사용해야 GPT-5.3 Instant 최신 업데이트를 자동으로 받을 수 있습니다.

▶ 안전 카드에서 후퇴가 확인됐다면 실제로 위험한 건가요?

OpenAI는 해당 평가가 “의도적으로 어렵게 설계된 테스트”이며 일반 트래픽을 대표하지 않는다고 밝혔습니다. 또 온라인 실험에서는 자해 관련 불량 응답이 증가하지 않았다고 명시했습니다. 시스템 수준의 안전 장치도 ChatGPT에 배포돼 있습니다. 즉, 실제 배포 환경에서는 안전 카드 수치만큼 위험이 그대로 반영되지는 않습니다. 단, 이 내용은 공식 문서에 나온 그대로이며 이유는 아직 공개되지 않은 부분도 있습니다.

▶ GPT-5.3 대신 GPT-5.4를 써야 하는 경우가 있나요?

일상적인 정보 검색·글쓰기·번역은 GPT-5.3 Instant로 충분합니다. 반면 복잡한 추론, 코딩, 에이전트형 작업이 필요하다면 GPT-5.4 Thinking을 선택해야 합니다. GPT-5.4 Thinking은 Plus·Go 기준 주 200회 한도(엔터프라이즈는 무제한)입니다. (출처: OpenAI Help Center, 2026.03) GPT-5.3은 Instant 모델 기준 Enterprise·Edu에서는 무제한 사용 가능합니다.

▲ 목차로 돌아가기

환각 27% 감소, 숫자 뒤에 있는 조건 두 가지

공식 안전 카드에서 확인된 후퇴 항목

한국어 사용자에게 직접 영향 미치는 공식 한계

3월 16일 2차 업데이트에서 달라진 것

자주 묻는 질문 Q&A

이 글 공유하기:
X
Facebook

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.3 Instant, 환각 27% 줄었는데 이 수치는 빠졌습니다

환각 27% 감소, 숫자 뒤에 있는 조건 두 가지

공식 안전 카드에서 확인된 후퇴 항목

한국어 사용자에게 직접 영향 미치는 공식 한계

3월 16일 2차 업데이트에서 달라진 것

자주 묻는 질문 Q&A

이 글 공유하기: X에 공유 (새 창에서 열림) X Facebook으로 공유하기 (새 창에서 열림) Facebook

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

이 글 공유하기:
X
Facebook