2026.03.04 기준 / Phi-4-reasoning-vision-15B
IT/AI

Phi-4-reasoning-vision, 200B 토큰이 1조를 이긴 이유

결론부터 말씀드리면, 이 모델이 흥미로운 이유는 크기가 작아서가 아닙니다. 학습 데이터 5분의 1로 경쟁 모델과 동등한 성능을 냈고, 더 많이 생각할수록 오히려 점수가 내려가는 구간이 공식 벤치마크에서 확인됐습니다. 공식 기술보고서(arXiv 2603.03975)를 직접 파고들어 수치를 확인했습니다.

15B

파라미터

200B

학습 토큰 (경쟁사는 1T+)

4일

학습 소요 시간

MIT

라이선스 (상업 가능)

5분의 1 데이터로 같은 성능? 수치로 확인한 핵심 이유

Phi-4-reasoning-vision-15B는 총 200억(200B) 토큰의 멀티모달 데이터로 학습됐습니다. 반면 Qwen3-VL, Kimi-VL, Gemma3는 각각 1조(1T) 토큰 이상을 사용했습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

숫자만 보면 “당연히 성능도 낮겠지”라는 생각이 드는데, 직접 확인해보면 이게 그렇지 않습니다. 비결은 양이 아니라 데이터 처리 방식에 있었습니다. 연구팀은 오픈소스 데이터셋을 그대로 쓰지 않고, 각 데이터셋마다 5~10분씩 수작업으로 검수해 오답이 달린 문항은 GPT-4o와 o4-mini로 재생성하고, 이미지 자체가 불량한 데이터는 통째로 제외했습니다. (출처: arXiv 2603.03975, 2026.03.04)

💡 공식 기술보고서와 실제 학습 흐름을 같이 놓고 보니 이런 차이가 보였습니다
업계 대부분의 모델이 “오픈소스 데이터 + 대규모 스케일”을 택할 때, Microsoft는 오픈소스 데이터를 검수·재생성·재조합하는 데 상당한 공수를 들였습니다. 학습량이 5분의 1에 불과한데도 경쟁 모델과 어깨를 나란히 하는 진짜 이유가 여기 있습니다.

실제로 이 팀이 “놀라울 정도로 많은 수의 서식·논리 오류”를 수정했다고 보고서에 적시했습니다. 업계에서 표준 학습 자료로 통용되는 오픈소스 데이터셋에 그만큼 오류가 많다는 의미이기도 합니다.

▲ 목차로 돌아가기

생각을 켜면 오히려 점수가 떨어지는 구간이 있습니다

이 부분이 가장 흥미로운 포인트입니다. AI 모델이 “천천히 생각하면 더 정확하다”는 게 최근 추론 모델의 공식처럼 굳어 있는데, Phi-4-reasoning-vision은 그 공식이 항상 성립하지 않는다는 걸 공식 수치로 보여줍니다.

기본 모드(혼합 추론)에서 ChartQA 점수는 83.3점입니다. 그런데 추론 모드를 강제로 켜면 82.9점으로 소폭 내려갑니다. ScreenSpot-v2에서는 기본 88.2점인데 thinking 강제 시 88.1점으로 역시 약간 낮아집니다. 반면 MathVerse에서는 기본 44.9점에서 추론 강제 시 53.1점으로 올라갑니다. (출처: HuggingFace 모델카드, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)

💡 단순히 생각을 켜고 끄는 것이 아니라, 태스크 유형이 먼저입니다
차트 읽기나 화면 요소 찾기처럼 “보면 바로 아는” 태스크에서는 생각 과정을 추가해봤자 답변이 장황해지고 오히려 오류가 끼어들 여지가 늘어납니다. 이 모델이 기본 모드에서 추론 모드와 직접 응답 모드를 데이터 분포로 학습해 자동 판단하게 만든 설계 이유가 여기 있습니다.

공식 기술보고서에는 추론 데이터 비율이 전체의 약 20%라고 명시돼 있습니다. “이 20/80 비율이 모든 태스크에서 최적임을 보장하지는 않는다”고 팀 스스로 한계를 인정했습니다. 솔직히 좋은 태도라고 봅니다.

▲ 목차로 돌아가기

수학 데이터를 늘렸더니 화면 인식 점수도 올랐습니다

공식 기술보고서에 들어간 내부 실험 결과가 꽤 뜻밖입니다. 수학 데이터를 150K에서 450K로 3배 늘리면서 컴퓨터 사용(CUA) 데이터는 450K로 고정했더니, MathVista 점수가 37.4→38.9로 오를 뿐 아니라 ScreenSpot-V2 점수가 48.2→63.1까지 뛰었습니다. (출처: arXiv 2603.03975 Table 4, 2026.03.04)

수학 공부를 더 시켰는데 화면을 더 잘 읽게 됐다는 셈입니다. 연구팀의 해석은 이렇습니다. 수학적 추론 데이터가 쌓이면 세밀한 시각 요소를 단계별로 분석하는 능력 자체가 올라가기 때문에, 도메인이 다른 태스크에도 긍정적인 영향을 준다는 것입니다.

데이터 비율 실험 요약 (5B 프록시 모델 기준)
(출처: arXiv 2603.03975 Table 4)

일반 데이터	수학 데이터	CUA 데이터	MathVista	ScreenSpot-V2
1M	150K	450K	37.4	48.2
1M	450K (3배)	450K	38.9 ↑	63.1 ↑

수학 데이터 3배 증가 → 수학 점수 4% 향상 + 화면 인식 점수 31% 향상.

▲ 목차로 돌아가기

경쟁 모델과 점수를 직접 비교한 표

아래 수치는 팀이 직접 재현 평가한 결과입니다. 모든 평가를 temperature=0.0, greedy decoding, 최대 4,096 토큰 출력 기준으로 진행했고, 리더보드 인용이 아니라 직접 측정값임을 공식 발표에서 명시했습니다. (출처: HuggingFace 모델카드, 2026.03.04)

벤치마크	Phi-4-rv (15B)	Qwen3-VL (8B)	Qwen3-VL (32B)	Kimi-VL (A3B)	Gemma3 (12B)
AI2D (과학 도식)	84.8	82.7	84.8	84.6	80.4
ChartQA (차트 이해)	83.3	83.1	84.3	87.0	39.0
MathVista (수학 추론)	75.2	77.1	82.5	67.1	57.4
ScreenSpot-v2 (UI)	88.2	91.5	93.7	89.8	3.5
OCRBench	76.0	89.2	88.5	86.5	75.3
MMMU (종합)	54.3	60.7	68.6	52.0	50.0

OCR 점수(76.0)는 Qwen3-VL-8B(89.2) 대비 상당히 낮습니다. 정밀 문자 인식이 핵심인 서비스라면 이 부분을 실사용 전에 직접 테스트해보는 게 맞습니다.

▲ 목차로 돌아가기

이 모델이 확실히 안 되는 조건 3가지

공식 모델카드(HuggingFace)에 명시된 한계입니다. 좋은 점만 보다 보면 나중에 당황하는 경우가 생기기 때문에 짚고 넘어갑니다.

① 영어 외 언어 성능 보장 없음

학습 데이터가 영어 중심으로 구성돼 있어서, 한국어·일본어 등 비영어 언어에서 품질이 크게 달라질 수 있습니다. 공식 모델카드에 “multilingual 사용이 의도된 목적이 아니다”라고 명확히 적혀 있습니다. (출처: HuggingFace 모델카드, 2026.03.04)

② 오디오·영상 입력 불가

입력은 텍스트와 이미지만 받습니다. 같은 Phi 패밀리인 Phi-4-multimodal(5.6B)이 오디오 입력을 지원하는 것과 구별됩니다. 영상 처리가 필요한 파이프라인에는 맞지 않습니다. (출처: HuggingFace 모델카드 2.4절, 2026.03.04)

③ 의료·법률·금융 판단에 쓰면 안 됩니다

공식 모델카드에 “의료 진단, 법률 자문, 재무 계획 제공에 적합하지 않다”고 명시돼 있습니다. 할루시네이션(사실을 꾸며내는 현상) 가능성 역시 보고서에 인정돼 있습니다. (출처: HuggingFace 모델카드 2.2절, 2026.03.04)

▲ 목차로 돌아가기

개발자라면 실제 사용 전 알아야 할 설정

공식 모델카드 기준으로 확인한 실행 환경과 주의사항입니다. 막상 쓰려고 보면 이 부분에서 막히는 경우가 많습니다.

필수 소프트웨어 버전: torch ≥ 2.7.1 / transformers ≥ 4.57.1 / vllm ≥ 0.15.2(vLLM 사용 시). 현재 시점 기준으로 꽤 최신 버전이 필요하기 때문에, 기존 환경이 구버전이라면 충돌이 날 수 있습니다.

GPU 환경: NVIDIA A6000, A100, H100, B200에서 테스트됐으며, bf16 정밀도로 vLLM 서버에서 운영하는 것을 공식 권장합니다. 학습 당시 GPU는 NVIDIA B200 240대, 기간은 4일이었습니다. (출처: HuggingFace 모델카드, 2026.03.04)

추론 모드 수동 제어: 모델이 추론 여부를 자동으로 판단하지만, 필요할 경우 응답 앞에 <think> 또는 <nothink> 토큰을 붙여 강제할 수 있습니다. 단, 앞서 설명했듯 강제 thinking이 항상 유리하지는 않습니다.

컨텍스트 길이: 16,384 토큰
이미지 토큰까지 포함되므로, 고해상도 이미지를 여러 장 넣을 경우 컨텍스트가 빠르게 소모됩니다. 최대 시각 토큰 수는 3,600개(약 720p HD 해상도 수준)로 설정돼 있습니다. 이 점을 계산 없이 쓰면 긴 문서+고해상도 이미지 동시 처리 시 컨텍스트가 잘릴 수 있습니다.

HuggingFace, GitHub, Azure AI Foundry 세 채널 모두에서 받을 수 있고, 라이선스는 MIT입니다. 상업적 사용이 가능하지만 Microsoft의 Responsible AI 지침을 따르는 것이 권장됩니다.

▲ 목차로 돌아가기

❓ Q&A 5가지

Q1. Phi-4-reasoning-vision-15B는 무료로 쓸 수 있나요?

MIT 라이선스로 공개돼 있어서 상업적 사용을 포함해 무료입니다. HuggingFace, GitHub, Azure AI Foundry 세 채널에서 모두 받을 수 있습니다. Azure에서 API로 쓸 경우 종량제 비용이 발생할 수 있습니다. (출처: HuggingFace 모델카드, 2026.03.04)

Q2. Phi-4-multimodal과 어떤 차이가 있나요?

Phi-4-multimodal은 5.6B 파라미터로 텍스트, 이미지, 오디오를 모두 지원하는 모델입니다. Phi-4-reasoning-vision-15B는 15B 파라미터이지만 이미지와 텍스트만 받으며, 수학·과학 추론과 GUI 조작에 특화됩니다. 오디오가 필요하면 Phi-4-multimodal, 추론 능력이 필요하면 Phi-4-reasoning-vision이 더 맞습니다.

Q3. 한국어로 된 이미지를 분석할 수 있나요?

공식 모델카드는 “영어 이외 언어 성능을 보장하지 않는다”고 못박고 있습니다. 한국어 텍스트가 포함된 이미지 인식은 OCR 품질이 낮아질 수 있습니다. 반드시 실사용 환경에서 직접 테스트해 보는 것을 권합니다. (출처: HuggingFace 모델카드 2.6절, 2026.03.04)

Q4. 추론 모드를 항상 켜두는 게 유리하지 않나요?

아닙니다. 공식 벤치마크에서 ChartQA는 기본 모드 83.3 vs 추론 강제 82.9로, 강제 thinking 시 점수가 소폭 낮아집니다. 이미지 캡션, OCR, 단순 시각 인식처럼 “보면 바로 아는” 태스크는 직접 응답이 더 낫습니다. (출처: HuggingFace 모델카드 Table 1&2, 2026.03.04)

Q5. Ollama로 로컬에서 돌릴 수 있나요?

커뮤니티에서 GGUF 포팅 시도가 있는 것으로 확인됩니다. 공식 권장은 NVIDIA A100/H100/B200급 GPU에 vLLM 서버입니다. bf16 기준 15B 모델이므로 최소 30GB VRAM이 필요합니다. 4비트 양자화(Q4)를 쓰면 약 10~12GB로 줄어들 수 있지만, 성능 저하 여부는 직접 검증이 필요합니다. 이 부분은 공식 문서에서 별도 이유를 밝히지 않았습니다.

▲ 목차로 돌아가기

마치며 — 총평

Phi-4-reasoning-vision-15B를 공식 자료를 기준으로 뜯어보니, 결국 핵심 메시지는 하나입니다. “데이터의 규모보다 데이터의 품질이 먼저다.” 1조 토큰 이상을 쓴 경쟁 모델과 200B 토큰으로 어깨를 나란히 했다는 사실 자체가, 지금까지 AI 업계가 당연하게 여겼던 “스케일 우선” 접근에 실질적인 반례를 제시합니다.

물론 한계도 명확합니다. OCR은 Qwen3-VL-8B에 비해 확실히 약하고, 한국어 지원은 공식적으로 보장되지 않습니다. AI 에이전트로 화면을 조작하거나 수식이 포함된 이미지를 처리하는 개발자라면 실사용 테스트 가치가 충분히 있습니다. 단순 텍스트 OCR이나 비영어권 문서 분석이 주 목적이라면 다른 선택지를 먼저 살펴보는 게 더 현실적입니다.

MIT 라이선스로 무료 공개된 모델이고, 평가 로그까지 전부 공개하겠다고 약속했습니다. 숫자를 직접 돌려볼 수 있는 환경이 있다면, 벤치마크 재현부터 해보는 것도 재미있을 것입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.03.04 기준 공식 발표 자료를 토대로 작성됐으며, 이후 업데이트로 달라질 수 있습니다.

Phi-4-reasoning-vision, 200B 토큰이 1조를 이긴 이유

5분의 1 데이터로 같은 성능? 수치로 확인한 핵심 이유

생각을 켜면 오히려 점수가 떨어지는 구간이 있습니다

수학 데이터를 늘렸더니 화면 인식 점수도 올랐습니다

경쟁 모델과 점수를 직접 비교한 표