Phi-4 비전 추론: 생각 많을수록 불리한 AI의 1/5 학습 비밀

Published on

in

Phi-4 비전 추론: 생각 많을수록 불리한 AI의 1/5 학습 비밀

2026.03.04 기준 / Phi-4-reasoning-vision-15B (출시 버전)

Phi-4-reasoning-vision-15B: “더 생각할수록 좋은 AI”라고 믿으면
ScreenSpot 함정과 데이터 1/5의 비밀 동시에 놓치는 이유

마이크로소프트가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B는 경쟁사 대비 학습 데이터를 단 1/5만 사용하면서도 동급 모델들을 제치는 성능을 기록했습니다. 그런데 이 모델에는 “AI는 오래 생각할수록 더 잘 답한다”는 통념을 정면으로 뒤집는 구조가 숨어 있습니다. 공식 벤치마크 수치와 기술 보고서를 교차 분석해 지금까지 다른 글에서 다루지 않은 두 가지 핵심을 집중 분석합니다.

📊 파라미터: 15B
🗂️ 학습 데이터: 200B 토큰 (경쟁사 1/5)
🖥️ 훈련 GPU: B200 × 240개, 4일
📄 라이선스: MIT (무료 상업 이용)

Phi-4-reasoning-vision-15B가 지금 주목받는 이유

마이크로소프트가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B는 150억 개(15B) 파라미터 규모의 오픈웨이트 멀티모달 추론 모델입니다. 텍스트와 이미지를 동시에 처리하면서 수학·과학 문제 풀이, 차트 해석, 영수증 읽기, GUI 화면 탐색 등 폭넓은 시각-언어 작업을 수행할 수 있습니다.

이 모델이 AI 커뮤니티에서 빠르게 화제가 된 것은 단순히 “성능이 좋다”는 이유가 아닙니다. 알리바바 Qwen3-VL, 킴비VL, 구글 Gemma3처럼 학습에 1조 개 이상의 토큰을 쏟아부은 경쟁 모델들이 넘쳐나는 상황에서, 고작 2,000억(200B) 토큰만 사용하고도 유사한 규모 모델들과 경쟁하는 결과를 공식 벤치마크로 제시했기 때문입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

모델 가중치는 MIT 라이선스로 공개되어 있어 상업적 이용도 자유롭습니다. HuggingFace, Microsoft Foundry, GitHub 세 곳에서 내려받을 수 있으며, 추론 서버 구동에는 최소 NVIDIA A6000 이상 GPU가 권장됩니다.

▲ 목차로 돌아가기

경쟁사 1/5 데이터로 같은 성능이 나온 진짜 비밀

💡 이 섹션의 분석은 Microsoft Research 공식 블로그(2026.03.04)와 arXiv 기술 보고서(2603.03975v1)를 교차 검토한 결과입니다. “데이터가 많을수록 모델이 좋아진다”는 업계 통념이 이 수치 앞에서 흔들립니다.

AI 모델 개발에서 흔히 통하는 공식이 있습니다. “더 많은 데이터 = 더 좋은 모델.” 이 믿음 아래 최근 출시된 멀티모달 모델들은 경쟁하듯 학습 데이터 규모를 늘려왔습니다. Qwen3-VL과 Kimi-VL, Gemma3는 모두 1조 토큰(1T+) 이상의 멀티모달 데이터로 훈련되었습니다.

반면 Phi-4-reasoning-vision-15B의 멀티모달 학습 데이터는 2,000억(200B) 토큰에 불과합니다. 경쟁사 대비 약 1/5 수준입니다. 그런데도 유사 파라미터 규모 모델들과 비슷하거나 앞서는 벤치마크 성능을 보입니다. 이것이 어떻게 가능했을까요?

데이터를 쌓는 대신 데이터를 고쳤다

마이크로소프트 연구팀은 “데이터 규모”가 아닌 “데이터 품질”에 집중했습니다. 공개 데이터셋을 그대로 쓰는 대신, 팀원이 직접 수작업으로 각 데이터셋을 5~10분씩 검토하며 다음 네 가지로 분류했습니다. 품질이 우수한 데이터는 그대로 유지하고, 오답이 포함된 데이터는 GPT-4o와 o4-mini로 재생성했습니다. 이미지 자체는 양질이지만 질문이 낮은 경우에는 해당 이미지를 씨앗(seed) 삼아 새로운 캡션 데이터를 생성했습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975v1, 2026.03.04)

연구팀이 특히 강조한 것은 기존 오픈소스 데이터셋에 “놀랍도록 많은 수의 포맷 오류와 논리 오류”가 존재한다는 사실이었습니다. 이는 다른 모델들도 검증되지 않은 오류 데이터를 대량으로 학습하고 있을 가능성을 시사합니다. 즉, 1조 토큰 중 상당 부분은 오히려 모델에 잘못된 패턴을 가르치는 ‘노이즈’일 수 있다는 뜻이고, 이것이 바로 Phi-4가 1/5 데이터로도 충분히 경쟁력을 갖춘 핵심 이유입니다.

훈련 비용의 현실적 의미

이 모델의 훈련에 사용된 자원은 NVIDIA B200 GPU 240개, 4일입니다. (출처: HuggingFace 모델 카드, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04) 반면 1조 토큰 규모를 처리하는 대형 멀티모달 모델의 훈련에는 통상적으로 수천 개의 GPU가 수주에서 수개월씩 가동됩니다. 훈련 비용과 탄소 발자국 측면에서 Phi-4가 제시하는 방향은 단순한 성능 경쟁을 넘어 AI 개발의 지속가능성 문제와도 맞닿아 있습니다.

▲ 목차로 돌아가기

더 생각할수록 점수가 떨어지는 모델 구조의 비밀

💡 아래 수치는 HuggingFace 공식 모델 카드(microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)에 공개된 벤치마크 결과를 직접 비교한 것입니다. 직접 확인하려면 HuggingFace 모델 카드 → “Table 1” 섹션에서 동일한 숫자를 볼 수 있습니다.

AI 추론 모델에 대해 사람들이 가장 자연스럽게 갖는 믿음이 있습니다. “더 오래, 더 깊이 생각하면 더 정확한 답이 나온다.” OpenAI의 o 시리즈, DeepSeek R1처럼 ‘생각하는 AI’가 유행하면서 더욱 굳어진 믿음입니다.

그런데 Phi-4-reasoning-vision-15B의 공식 벤치마크 결과는 이 믿음을 정면으로 뒤집는 수치를 담고 있습니다.

생각을 강제했을 때 오히려 성능이 떨어진 벤치마크

벤치마크 기본 모드
(혼합 추론)
생각 강제
(force think)
비사고 강제
(force nothink)
ScreenSpot v2
(UI 요소 위치 파악)
88.2 88.1 ▼ 88.3 ▲
ChartQA
(차트 이해·추론)
83.3 82.9 ▼ 76.5
AI2D
(과학 다이어그램)
84.8 79.7 ▼ 84.7
MathVerse
(시각적 수학)
44.9 53.1 ▲ 43.8

출처: HuggingFace 모델 카드 (microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)

이 표가 의미하는 것은 단순합니다. 화면 UI를 읽거나 차트를 해석하는 작업에서는 오히려 생각을 하지 않는 것이 더 정확합니다. 사람도 마찬가지입니다. “이 버튼이 어디 있지?”라는 질문에 수십 초를 고민하는 것보다 화면을 빠르게 훑어보는 쪽이 훨씬 낫습니다. Phi-4는 이 이치를 모델 구조 안에 구현했습니다.

<think>와 <nothink> — 스스로 판단하는 모드 전환

마이크로소프트 연구팀은 전체 학습 데이터의 20%에만 추론 체인(chain-of-thought)을 포함시키고, 나머지 80%는 직접 응답 데이터로 구성했습니다. 모델은 수학·과학처럼 단계적 추론이 유리한 영역에서는 자동으로 <think>...</think> 블록을 사용하고, 이미지 설명·OCR·UI 탐색처럼 빠른 지각이 핵심인 영역에서는 <nothink> 토큰으로 즉답을 선택합니다. 사용자가 원한다면 프롬프트에 직접 토큰을 삽입해 모드를 강제할 수도 있습니다. (출처: Microsoft Research Blog, 2026.03.04)

이 설계의 실질적 이점은 추론 비용에 있습니다. 모든 질문에 깊은 생각을 강제하는 모델은 불필요한 토큰을 생성해 응답 속도와 API 비용을 모두 높입니다. 반면 Phi-4는 필요한 순간에만 추론 경로를 활성화하므로 동일 쿼리에 대한 실질적인 처리 비용이 낮아집니다.

▲ 목차로 돌아가기

수학 문제를 늘렸더니 UI 인식도 올랐다 — 교차 도메인 시너지

💡 이 분석은 공식 기술 보고서(arXiv 2603.03975v1, Table 4)의 데이터 비율 실험 결과와 Microsoft Research 블로그를 교차한 결과입니다. 두 분야가 서로 다른 능력이라는 일반적 인식을 뒤집는 수치입니다.

AI 멀티모달 모델 개발에서 연구자들이 오랫동안 고민해온 질문이 있습니다. “수학·과학 추론과 컴퓨터 화면 이해는 완전히 다른 능력인데, 하나를 키우면 다른 하나는 희생되지 않을까?” 이 때문에 많은 팀이 특화 모델을 따로 만들거나, 두 능력 사이에 데이터를 정교하게 균형 배분하려 고민합니다.

마이크로소프트 연구팀의 실험 결과는 이 상식을 뒤집습니다. 공식 기술 보고서에 공개된 데이터 비율 실험 결과표를 직접 읽어보면 다음과 같은 수치가 나옵니다.

일반 데이터 수학·과학 CUA
(UI/화면)
MMMU
(종합 이해)
MathVista
(수학)
ScreenSpot v2
(UI 인식)
1M 150K 450K 44.0 37.4 48.2
1M 450K (+3배) 450K 45.3 36.0 48.3 (유지)
1M 450K (+3배) 850K (+증가) 43.4 38.9 ▲ 63.1 ▲▲

출처: Phi-4-reasoning-vision-15B Technical Report (arXiv 2603.03975v1), Table 4, 2026.03.04

이 수치가 의미하는 것은 명확합니다. 수학 데이터를 3배(150K → 450K)로 늘렸을 때 UI 화면 인식 점수(ScreenSpot v2)가 거의 동일하게 유지되었고, 거기에 UI 데이터까지 함께 늘리자 ScreenSpot v2 점수가 48.2에서 63.1로 약 31% 상승했습니다. 즉, 수학 추론 훈련이 화면 이해 능력을 갉아먹지 않았을 뿐 아니라, 오히려 시너지 효과를 냈다는 것입니다.

연구팀은 이를 “단계적 수학 추론 능력이 화면 탐색의 구조적 이해력과 공유 기반을 갖는다”는 가설로 설명합니다. 쉽게 말해, 논리적 순서에 따라 문제를 풀어가는 능력과 화면의 요소들을 체계적으로 파악하는 능력이 근본적으로 같은 인지 능력을 공유한다는 뜻입니다. 이는 AI 모델 훈련 전략에 상당히 중요한 함의를 갖습니다.

▲ 목차로 돌아가기

실제 벤치마크로 직접 확인하는 성능 위치

Phi-4-reasoning-vision-15B의 성능이 정확히 어디쯤에 서 있는지 주요 경쟁 모델과 직접 비교해봅니다. 마이크로소프트 팀은 리더보드 수치를 인용하는 대신 동일 환경에서 직접 평가(온도=0.0, 그리디 디코딩, 최대 4,096 토큰)를 실시했고, 모든 평가 로그를 공개하겠다고 밝혔습니다. (출처: Microsoft Research Blog, 2026.03.04)

벤치마크 Phi-4
15B
Qwen3-VL
8B
Qwen3-VL
32B
Kimi-VL
A3B
Gemma3
12B
AI2D (과학 다이어그램) 84.8 82.7 85.0 84.6 80.4
ChartQA (차트 이해) 83.3 83.1 84.0 87.0 39.0
MathVista (수학 추론) 75.2 77.1 82.5 67.1 57.4
ScreenSpot v2 (UI) 88.2 91.5 93.7 89.8 3.5
MMMU (종합 이해) 54.3 60.7 68.6 52.0 50.0

출처: HuggingFace 모델 카드 (microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)

이 표에서 주목해야 할 포인트는 두 가지입니다. 첫째, Phi-4(15B)는 2배 이상 큰 Qwen3-VL-32B에는 전반적으로 뒤처지지만, 절반도 안 되는 규모인 Qwen3-VL-8B와는 대부분 동등하거나 일부 벤치마크에서 앞섭니다. 둘째, Gemma3(12B)가 ScreenSpot v2에서 3.5점이라는 충격적인 수치를 기록한 반면 Phi-4는 88.2점을 기록했습니다. 화면 UI 탐색 에이전트 용도라면 Phi-4가 압도적 우위입니다.

반면 MMMU 점수(54.3)는 Qwen3-VL-32B(68.6)와 16점 가까운 격차가 납니다. 다양한 학문 분야에 걸친 깊이 있는 종합 이해력에서는 더 큰 모델이 여전히 우세합니다. 이 점은 활용 목적에 따라 모델 선택을 달리해야 한다는 것을 시사합니다.

▲ 목차로 돌아가기

지금 당장 어떻게 써볼 수 있나 — 설치 경로와 한계

Phi-4-reasoning-vision-15B는 세 가지 경로로 접근할 수 있습니다. Microsoft Foundry에서는 별도 설치 없이 API로 바로 시험해볼 수 있으며, HuggingFaceGitHub에서는 가중치와 파인튜닝 코드를 직접 내려받을 수 있습니다. 라이선스는 MIT이므로 상업적 이용도 가능합니다. (출처: HuggingFace 모델 카드, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)

로컬 구동 최소 요구사항

로컬 환경에서 구동하려면 아래 소프트웨어 버전이 충족되어야 합니다. torch ≥ 2.7.1, transformers ≥ 4.57.1, vLLM을 사용할 경우 vllm ≥ 0.15.2가 필요합니다. 공식 테스트 환경은 NVIDIA A6000, A100, H100, B200 GPU이며, Ubuntu 22.04.5 LTS 기준입니다. bf16 정밀도로 vLLM 서버에서 구동하는 방식이 권장됩니다.

반드시 알아야 할 제약 사항

이 모델을 사용할 때 공식 모델 카드에 명시된 제약 사항을 직접 확인하는 것이 중요합니다. 첫째, 영어 중심으로 훈련되었기 때문에 한국어를 포함한 비영어권 언어에서는 성능 저하가 발생할 수 있습니다. 둘째, 의료 진단, 법률 조언, 금융 계획 등 고위험 분야에서의 사용은 공식적으로 권장되지 않습니다. 셋째, 모델이 자동으로 언제 추론 모드를 써야 할지를 결정하는 경계가 아직 “암묵적 학습”에 의존하며, 연구팀 스스로도 이를 “미해결 문제”로 인정하고 있습니다. (출처: HuggingFace 모델 카드, 2026.03.04)

컨텍스트 창은 16,384 토큰으로, 매우 긴 문서를 한 번에 처리하는 용도에는 제한이 있습니다. 이 점을 고려하면 장문 보고서 분석보다는 차트·화면·수식처럼 집중도 높은 시각 정보 처리에 최적화된 모델임을 알 수 있습니다.

▲ 목차로 돌아가기

Q&A — 자주 묻는 핵심 질문 5가지

Q1. Phi-4-reasoning-vision-15B는 완전 무료로 상업적으로 사용할 수 있나요?
네, MIT 라이선스로 공개되어 있어 상업적 이용이 가능합니다. 모델 가중치, 파인튜닝 코드, 벤치마크 로그 모두 무료로 내려받을 수 있습니다. HuggingFace(microsoft/Phi-4-reasoning-vision-15B)에서 바로 접근할 수 있으며, Microsoft Foundry를 통한 API 이용 시에는 해당 플랫폼의 요금 정책이 별도로 적용될 수 있습니다.
Q2. 한국어로 질문해도 제대로 답하나요?
공식 모델 카드에 “주로 영어 텍스트로 훈련되었으며, 다른 언어에서는 성능이 저하될 수 있다”고 명시되어 있습니다. 한국어 입력도 처리하는 수준은 되지만, 영어와 동일한 수준의 정확도를 기대하기는 어렵습니다. 한국어 문서 처리나 한국어 수학 문제 풀이에 사용할 경우 반드시 사전 테스트가 필요합니다.
Q3. GPT-4o나 Claude와 직접 비교했을 때 어느 수준인가요?
공식 기술 보고서에서는 GPT-4o와의 직접 정량 비교 수치를 제시하지 않습니다. 다만 연구팀은 오답 데이터 재생성에 GPT-4o와 o4-mini를 활용했습니다. 벤치마크상으로는 Phi-4가 Qwen3-VL-8B 수준과 대등한 위치에 있으며, GPT-4o 수준의 클로즈드 모델과는 전반적으로 격차가 있습니다. 단, GUI 화면 탐색(ScreenSpot v2) 등 특정 영역에서는 경쟁력 있는 성능을 보입니다.
Q4. MacBook이나 일반 PC에서도 실행할 수 있나요?
공식 테스트 환경은 NVIDIA GPU(A6000/A100/H100/B200)이며, MacBook CPU나 일반 GPU 환경에서의 동작은 공식적으로 검증되지 않았습니다. 15B 파라미터 모델을 bf16으로 구동하려면 최소 24GB 이상의 VRAM이 필요합니다. Apple Silicon 기반 Mac에서도 llama.cpp 같은 변환 경로를 통해 실행하는 시도가 커뮤니티에서 이루어지고 있지만, 성능 저하가 발생할 수 있습니다.
Q5. 추론 모드()와 비추론 모드()는 언제 구분해서 써야 하나요?
수학 방정식 풀기, 과학 다이어그램 분석, 복잡한 논리 문제처럼 단계별 사고가 필요한 작업에는 <think> 토큰을 명시적으로 삽입해 추론 모드를 강제하면 점수가 오릅니다(MathVerse 기준 44.9 → 53.1). 반대로 화면 스크린샷에서 버튼 위치 찾기, 이미지 캡션 생성, OCR처럼 빠른 지각이 중요한 작업에는 <nothink>를 명시하거나 기본 모드를 그대로 두는 편이 더 빠르고 정확합니다. 기본 설정은 모델이 스스로 판단하도록 설계되어 있으므로, 특별한 이유가 없다면 기본 모드를 유지하는 것이 안전합니다.

▲ 목차로 돌아가기

마치며

Phi-4-reasoning-vision-15B가 던지는 메시지는 명확합니다. AI 모델의 경쟁력은 얼마나 큰 데이터를 쌓았느냐가 아니라, 어떤 데이터를 어떻게 가공했느냐에 달려 있습니다. 1조 토큰을 쓰든 2,000억 토큰을 쓰든, 오류로 가득한 데이터를 그대로 흡수한 모델은 오류 패턴을 함께 학습합니다. 마이크로소프트 팀이 수작업으로 각 데이터셋을 사람이 직접 들여다보며 걸러낸 방식은 비효율적으로 보이지만, 바로 그 비효율이 1/5 데이터로 동등한 경쟁력을 만들어냈습니다.

“생각을 많이 할수록 좋은 AI”라는 믿음도 이 모델 앞에서 조건부가 됩니다. 지각(perception) 중심 작업에서 불필요한 추론은 오히려 정확도를 떨어뜨리고 응답 속도를 낮춥니다. 이는 AI를 실제 서비스에 배포할 때 단순히 “가장 큰 추론 모델”을 선택하는 대신, 작업 유형에 맞는 모델 구조를 고려해야 한다는 실용적인 교훈입니다.

수학 데이터가 UI 이해력까지 끌어올리는 교차 시너지도 AI 훈련 전략 전반에 걸쳐 재검토의 여지를 줍니다. “서로 다른 능력은 서로 다른 데이터로 키워야 한다”는 기존 설계 원칙이 항상 옳지 않을 수 있다는 것, 그리고 추상적 논리력이 구체적인 지각 과제에도 전이된다는 것은 향후 모델 설계에 중요한 참고점이 될 것입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Microsoft Research 공식 블로그 — “Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model”
    https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/
  2. HuggingFace 공식 모델 카드 — microsoft/Phi-4-reasoning-vision-15B
    https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B
  3. arXiv 기술 보고서 — “Phi-4-reasoning-vision-15B Technical Report” (2603.03975v1)
    https://arxiv.org/html/2603.03975v1
  4. VentureBeat — “Microsoft built Phi-4-reasoning-vision-15B to know when to think and when not to” (2026.03.04)
    https://venturebeat.com/technology/microsoft-built-phi-4-reasoning-vision-15b-to-know-when-to-think-and-when
  5. Microsoft Foundry — Phi-4-Reasoning-Vision-15B 모델 카탈로그
    https://ai.azure.com/catalog/models/Phi-4-Reasoning-Vision-15B

⚠️ 면책 조항: 본 포스팅은 2026년 3월 16일 기준 공개된 공식 자료를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스 및 모델은 버전 업데이트로 성능·사양·라이선스 조건이 달라질 수 있으므로, 최신 정보는 Microsoft 공식 채널과 HuggingFace 모델 카드를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기