Phi-4-Reasoning-Vision, 이 작업에서만 대형 모델을 이깁니다

Published on

in

Phi-4-Reasoning-Vision, 이 작업에서만 대형 모델을 이깁니다

2026.03.04 공개 기준
MIT 라이선스 오픈 웨이트
Phi-4-Reasoning-Vision-15B 기준

Phi-4-Reasoning-Vision, 이 작업에서만 대형 모델을 이깁니다

마이크로소프트가 2026년 3월 4일 공개한 15B 규모의 멀티모달 추론 모델 — 데이터는 5분의 1, 속도는 경쟁사 대비 10배 이상 빠른 구간이 있습니다. 그런데 막상 써보면 이 모델이 강한 곳과 약한 곳이 예상과 다릅니다.

88.2%
ScreenSpot v2 (GUI 조작)
200B
학습 토큰 (경쟁사 대비 1/5)
54.3%
MMMU (광범위 멀티모달)
4일
훈련 소요 (B200 GPU 240개)

숫자부터 보면 이게 달라 보입니다

마이크로소프트 리서치가 2026년 3월 4일 공개한 Phi-4-Reasoning-Vision-15B는 150억 파라미터짜리 오픈 웨이트 멀티모달 추론 모델입니다. 공개 당일 arXiv에 기술 보고서(arXiv:2603.03975)가 동시 게재됐고, Hugging Face·Microsoft Foundry·GitHub 세 곳에서 즉시 내려받을 수 있습니다.

수치를 먼저 봐야 맥락이 잡힙니다. 이 모델은 약 2,000억(200B) 토큰의 멀티모달 데이터로 학습했습니다. 그런데 같은 15B 안팎 규모 경쟁 모델들 — Qwen 2.5 VL, Qwen 3 VL, Kimi-VL, Gemma3 — 은 각각 1조(1T) 토큰 이상을 쓴 것으로 공식 보고서에 나와 있습니다. 5배 차이입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

그러면서도 MathVista에서 75.2%, ScreenSpot v2(화면 요소 조작)에서 88.2%를 찍었습니다. 학습 비용이 5분의 1이면 정확도도 5분의 1이 나와야 한다는 통념과 결과가 다릅니다. 데이터 양보다 질이 더 강한 레버리지라는 게 이 모델이 던지는 메시지입니다.

▲ 목차로 돌아가기

추론 모델인데 추론을 안 하는 이유

여기서 모델 설계의 핵심 반전이 나옵니다. 이 모델은 이름에 “Reasoning”이 붙어 있지만, 전체 학습 데이터 중 추론 트레이스(체인 오브 쏘트)를 포함한 데이터는 약 20%에 불과합니다. 나머지 80%는 직접 답변 방식으로 처리되도록 설계됐습니다. (출처: arXiv:2603.03975, 2026.03.04)

💡 공식 발표문과 실제 학습 데이터 구성을 같이 놓고 보니 이런 차이가 보였습니다 — 추론 모델임에도 추론을 강제하지 않는 게 오히려 성능을 높이는 전략이었습니다. 마이크로소프트 연구팀은 이미지 캡션이나 OCR 같은 지각(perception) 작업에 추론을 강제하면 정확도가 오히려 낮아진다고 공식 발표문에 직접 밝혔습니다. 추론이 “항상 좋은 것”이라는 가정을 설계 단계에서 걷어낸 겁니다.

실제 구현 방식은 이렇습니다. 학습 데이터에 두 가지 신호를 심었습니다. 수학·과학처럼 단계적 추론이 필요한 데이터에는 <think>...</think> 태그로 감싼 추론 트레이스를 포함하고, 캡션·OCR·단순 VQA에는 <nothink> 토큰을 붙여 직접 답하도록 했습니다. 모델은 이 분포를 학습하면서 ‘언제 생각하고 언제 바로 답할지’를 스스로 판단하게 됩니다.

결과를 보면, 기본 동작(혼합 추론)이 추론을 강제했을 때보다 ChartQA에서 83.3% 대 82.9%로 소폭 높고, ScreenSpot v2에서는 88.2% 대 88.1%로 거의 동등합니다. 단, MathVerse에서는 추론을 강제했을 때 44.9%→53.1%로 올라가는 만큼, 수학 전용 작업은 <think>를 직접 넣는 게 유리합니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

▲ 목차로 돌아가기

데이터 5분의 1로 어떻게 경쟁했을까

학습 데이터 효율성에 대한 마이크로소프트의 설명은 솔직하면서도 불편합니다. 연구팀은 오픈소스 데이터셋을 정제하는 과정에서 “광범위하게 사용되는 오픈소스 데이터셋에서 놀랍도록 많은 수의 서식·논리 오류를 수정했다”고 밝혔습니다. 오류가 많은 데이터로 1조 토큰을 학습한 모델과, 오류를 제거한 2,000억 토큰으로 학습한 모델 중 어느 쪽이 더 똑똑한지는 자명합니다.

구체적인 정제 방식은 다음과 같습니다. 연구팀은 각 데이터셋에서 샘플을 직접 손으로 검토했으며, 보통 5~10분이면 “우수한 데이터 / 답이 틀린 좋은 질문 / 저품질 / 서식 오류” 4가지로 분류했다고 밝혔습니다. 답이 틀린 경우 GPT-4o와 o4-mini로 재생성했고, 질문은 살릴 수 없지만 이미지가 좋은 경우에는 이미지를 새 캡션·VQA 데이터의 씨앗으로 재활용했습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

💡 수치로 확인 가능한 훈련 효율 비교 — 아래 계산을 직접 따라해볼 수 있습니다.

Phi-4-reasoning-vision의 전체 학습 토큰: Phi-4 기반 400B + Phi-4-Reasoning 16B + 멀티모달 200B = 약 616B 토큰
Qwen 3 VL 등 경쟁 멀티모달 모델의 멀티모달 학습 토큰: 1T 이상
비율: 1,000 ÷ 200 = 5배 (멀티모달 학습 단계만 비교 시) — MathVista 점수는 75.2 vs 77.1(Qwen3-VL-8B)로 약 2.5% 차이. 데이터 5배 차이 대비 성능 차이는 극히 미미합니다.

또한 아키텍처 선택도 효율성을 뒷받침합니다. SigLIP-2의 Naflex 변형 비전 인코더를 쓰면서 최대 3,600 토큰까지 동적 해상도를 지원했는데, 이는 720p 네이티브 해상도에 근접한 수준입니다. 고해상도 화면 인식이 필요한 ScreenSpot-Pro 벤치마크에서 이 선택이 결정적이었다고 연구팀이 직접 밝혔습니다. (출처: arXiv:2603.03975)

▲ 목차로 돌아가기

ScreenSpot 88.2%가 의미하는 실제 사용처

ScreenSpot v2는 컴퓨터나 모바일 화면에서 특정 요소(버튼, 메뉴, 입력창)를 정확히 짚어내는 능력을 측정합니다. 이 벤치마크에서 Phi-4-Reasoning-Vision이 88.2%를 기록한 반면, 같은 테스트에서 Gemma3-12B는 3.5%였습니다. 같은 계열 경쟁 모델과의 격차가 아니라 대부분의 경쟁 모델이 이 영역에서 사실상 작동하지 않는 수준이라는 뜻입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

이 수치가 실제로 중요한 이유는 에이전틱 AI 흐름과 연결됩니다. 소프트웨어 화면을 읽고 버튼을 찾아 클릭하는 능력은 AI가 사람 대신 컴퓨터를 조작하는 자동화 에이전트의 핵심 전제 조건입니다. 대형 모델들이 이 영역에서 부진한 상황에서 15B 모델이 88.2%를 낸다는 건, 에이전트 파이프라인에서 비전 백본으로 쓸 때 오히려 선택지가 된다는 뜻입니다. 지연 시간이 짧고 모델 크기도 작아서 엣지 서버나 고성능 소비자 GPU에서 구동 가능한 점도 실배포에 유리합니다.

다만 한 가지 유의할 점이 있습니다. Kimi-VL-A3B는 동일 벤치마크에서 89.8%, Qwen3-VL-8B는 91.5%를 냈습니다. Phi-4-Reasoning-Vision이 이 영역에서 절대적 1위는 아닙니다. “GUI 이해에서 가장 강하다”는 표현보다는 “파라미터 대비 효율이 매우 높다”는 게 정확한 표현입니다. (출처: arXiv:2603.03975)

▲ 목차로 돌아가기

여기서는 솔직히 약합니다 — MMMU 54.3%

MMMU는 다양한 학문 분야(법학, 의학, 경영, 예술 등)에 걸친 멀티모달 이해를 측정하는 광범위 벤치마크입니다. Phi-4-Reasoning-Vision은 여기서 54.3%를 기록했습니다. 같은 벤치마크에서 Qwen3-VL-32B-Thinking은 72.2%입니다. 약 18% 포인트 차이가 납니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

이게 어떤 종류의 한계인지 이해하는 게 중요합니다. MMMU는 방대한 세계 지식이 필요한 문제들이 많습니다. 150억 파라미터는 세계 지식 용량 자체에 물리적 제약이 있습니다. 마이크로소프트 연구팀도 공식 발표문에서 “15B 파라미터 크기가 광범위한 세계 지식을 요구하는 작업에서 성능을 제한한다”고 직접 인정했습니다. 데이터 정제와 학습 방법론으로 극복하기 어려운 구조적 한계입니다.

⚠️ 이 모델이 맞지 않는 사용처가 있습니다 — 의학·법학·경영 등 전문 지식이 필요한 멀티모달 질의응답, 폭넓은 상식 추론이 필요한 범용 QA, 세밀한 환각(hallucination) 억제가 중요한 엔터프라이즈 업무. HallusionBench에서 64.4%를 기록했는데, Kimi-VL(65.2%)과 비슷하지만 Qwen3-VL-8B-Thinking(73%)에는 못 미칩니다.

▲ 목차로 돌아가기

Qwen3-VL, Kimi-VL과 직접 비교한 숫자들

마이크로소프트 연구팀이 직접 동일한 환경(temperature=0.0, greedy decoding, max 4,096 토큰)에서 측정한 공식 수치입니다. 리더보드 수치를 인용한 게 아니라 직접 돌린 값이라 일부 수치는 다른 데서 본 것보다 낮을 수 있습니다. (출처: arXiv:2603.03975)

벤치마크 Phi-4-R-V
15B (기본)
Kimi-VL
A3B
Qwen3-VL
8B
Qwen3-VL
32B
AI2D (과학 도표) 84.8 84.6 83.0 85.0
ChartQA (차트 분석) 83.3 87.0 83.2 84.0
MathVista (수학 추론) 75.2 67.1 76.4 81.8
MMMU (광범위 이해) 54.3 52.0 64.6 70.6
ScreenSpot v2 (GUI) 88.2 89.8 91.5 93.9
HallusionBench 64.4 65.2 74.1 74.9

※ 출처: Microsoft Research 공식 블로그 / arXiv:2603.03975 (2026.03.04). 마이크로소프트 자체 측정값 기준. 리더보드 공개 수치와 다를 수 있음.

💡 실제 배포 환경에서 판단해야 할 기준을 함께 놓고 보니 이런 패턴이 보였습니다 — 정확도 단독으로 보면 Qwen3-VL-32B가 거의 모든 항목에서 앞서지만, 추론 시간 대비 정확도(파레토 프런티어)로 보면 Phi-4-Reasoning-Vision이 가장 앞서는 구간이 생깁니다. 응답 속도가 중요한 인터랙티브 에이전트 환경에서는 오히려 이 모델이 현실적인 선택지가 됩니다. (출처: Microsoft Research 공식 블로그 Figure 1 — “pareto-frontier of the tradeoff between accuracy and compute costs”)

▲ 목차로 돌아가기

Q&A

Q1. 이 모델을 일반 PC에서 실행할 수 있나요?

15B 파라미터 모델이라 완전 정밀도(FP16)로는 VRAM 약 30GB 이상이 필요합니다. 4비트 양자화(Q4)를 적용하면 16~20GB 수준으로 내려가며, RTX 4090이나 RTX 3090(24GB VRAM)에서 실행 가능합니다. Ollama와 llama.cpp 모두 지원합니다. MIT 라이선스라 상업 용도에도 제약이 없습니다.

Q2. 추론(Thinking)을 강제로 켜거나 끌 수 있나요?

프롬프트에 <think> 토큰을 직접 넣으면 체인 오브 쏘트 추론이 활성화되고, <nothink> 토큰을 넣으면 직접 답변 모드로 고정됩니다. 기본값은 작업 유형에 따라 모델이 자동 판단합니다. 수학·과학 문제에서는 <think>를 명시하면 MathVerse 기준 44.9% → 53.1%로 성능이 올라가는 걸 공식 벤치마크에서 확인할 수 있습니다. (출처: arXiv:2603.03975)

Q3. GPT-4o, Claude Sonnet과는 비교가 안 되나요?

공식 기술 보고서에는 클로즈드 소스 모델과의 직접 수치 비교가 포함돼 있지 않습니다. 이유는 공개되지 않았습니다. 다만 Figure 1(공식 블로그)에서 정확도 대 추론 속도 그래프를 보면, 클로즈드 소스 대형 모델들과의 비교 없이도 오픈 웨이트 모델 안에서 파레토 프런티어를 확보했다는 게 핵심 주장입니다.

Q4. 한국어 처리 능력은 어느 정도인가요?

공식 기술 보고서에 한국어 특화 벤치마크는 포함돼 있지 않습니다. Phi 시리즈는 영어 중심으로 설계된 만큼, 한국어 텍스트 이해와 생성 품질은 Qwen3 시리즈에 비해 제한적일 가능성이 높습니다. 한국어 이미지 속 텍스트(OCR) 처리 성능도 공식 수치가 공개되지 않아 직접 테스트가 필요합니다.

Q5. 파인튜닝이 가능한가요? 비용은 어떻게 되나요?

MIT 라이선스로 파인튜닝 코드와 모델 가중치가 함께 공개됐습니다. 마이크로소프트는 이 모델을 Nvidia B200 GPU 240개로 4일 훈련했다고 밝혔습니다. 소비자 수준 하드웨어에서의 LoRA 파인튜닝은 이론적으로 가능하지만, 공식 지원 사례나 최적 설정은 아직 커뮤니티에서 검증 중인 단계입니다. (출처: arXiv:2603.03975)

마치며

Phi-4-Reasoning-Vision-15B는 “작은 모델로 큰 성능”이라는 Phi 시리즈의 주장을 멀티모달 영역에서 꽤 설득력 있게 이어갑니다. 학습 데이터를 5분의 1로 줄이면서도 AI2D·ChartQA·ScreenSpot에서 훨씬 큰 모델과 비슷한 점수를 낸다는 건, 데이터 정제 방법론이 규모를 일부 대체할 수 있다는 걸 보여줍니다.

솔직히 말하면, MMMU 54.3%와 HallusionBench 64.4%는 범용 QA 용도로 쓰기엔 부족합니다. 세계 지식이 넓게 필요한 작업이나 환각을 극도로 억제해야 하는 업무에는 Qwen3-VL-32B 같은 더 큰 모델이 낫습니다. 이 모델은 “모든 것을 잘하는 모델”이 아니라 “빠르고 가볍게, 화면을 보면서 수학·과학 추론을 해야 하는 에이전트 파이프라인”에 최적화된 도구입니다.

MIT 라이선스로 가중치가 열려 있고, 파인튜닝 코드도 공개됐으니 직접 써볼 진입 장벽은 낮습니다. 에이전트용 비전 백본을 고민하고 있다면, 이 모델이 현재 가장 현실적인 오픈 웨이트 선택지 중 하나입니다.

본 포스팅 참고 자료

  1. Microsoft Research 공식 블로그 — Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model (microsoft.com)
  2. arXiv 기술 보고서 — Phi-4-reasoning-vision-15B Technical Report, arXiv:2603.03975 (arxiv.org)
  3. VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think (venturebeat.com)
  4. Microsoft Foundry 모델 카탈로그 (ai.azure.com)
  5. Hugging Face 모델 페이지 (huggingface.co)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 마이크로소프트 리서치 자체 측정 기준이며, 독립적인 재현 결과와 다를 수 있습니다. Phi-4-Reasoning-Vision-15B 기준 (2026.03.04 공개 버전).


댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기