Phi-4-Reasoning-Vision-15B: 15B로 GPT 뛰어넘는 MS 신모델 완전정복

Published on

in

Phi-4-Reasoning-Vision-15B: 15B로 GPT 뛰어넘는 MS 신모델 완전정복

🔬 2026.03.04 공개 | 마이크로소프트 리서치

Phi-4-Reasoning-Vision-15B:
15B 파라미터로 32B급 AI를 이기는
마이크로소프트의 비밀 병기

“모델이 클수록 좋다”는 AI 업계의 공식을 정면으로 깨부순 모델이 등장했습니다. 마이크로소프트가 2026년 3월 4일 공개한 Phi-4-Reasoning-Vision-15B는 경쟁 모델 대비 5분의 1 수준의 학습 데이터만 사용하고도 동급·일부 상위 모델을 압도하는 성능을 기록했습니다. 지금 이 모델을 모르면, AI 활용 비용 계산법 자체를 다시 짜야 합니다.

📊 파라미터: 15B
🏆 ScreenSpot v2: 88.2점
⚡ 학습 데이터: 2,000억 토큰
🔓 오픈웨이트 공개

왜 지금 Phi-4-Reasoning-Vision-15B인가: 업계 판도 변화

2026년 AI 시장의 가장 뜨거운 화두는 ‘효율’입니다. GPT-5, Gemini 2.5 Pro 같은 초대형 모델들이 성능 레이스를 벌이는 사이, 마이크로소프트는 정반대 방향에서 판을 뒤집는 카드를 꺼냈습니다. 바로 Phi-4-Reasoning-Vision-15B로, 2026년 3월 4일 Microsoft Research 공식 블로그를 통해 세상에 공개되었습니다.

이 모델의 핵심 파격은 단 하나의 문장으로 요약됩니다. “우리는 경쟁사 대비 5분의 1 데이터로 비슷하거나 더 나은 성능을 달성했다.” Qwen 2.5 VL, Kimi-VL, Gemma 3 등 경쟁 멀티모달 모델이 1조(1 trillion) 토큰 이상으로 학습한 반면, Phi-4-Reasoning-Vision-15B는 2,000억(200 billion) 토큰만 사용했습니다. 토큰 수는 곧 학습 비용이자 인프라 투자이기 때문에, 이 차이는 단순한 기술 수치가 아니라 기업 AI 도입의 경제학에 직접 영향을 줍니다.

개인적으로 이 발표를 접하고 가장 흥미로웠던 부분은 벤치마크 수치보다 ‘설계 철학’이었습니다. 마이크로소프트는 단순히 더 좋은 모델을 만들려 한 것이 아니라, 실제 배포 환경에서 쓸 수 있는 모델을 만들겠다는 목표를 먼저 세웠습니다. 레이턴시, 비용, 하드웨어 제약이 현실 조건이라면 15B짜리 모델이 100B짜리 모델보다 훨씬 실용적인 선택이 될 수 있다는 것, 이 모델이 바로 그 증거입니다.

💡 핵심 인사이트

Phi-4-Reasoning-Vision-15B는 “얼마나 크게 만드느냐”가 아니라 “얼마나 똑똑하게 훈련하느냐”가 경쟁력을 결정한다는 사실을 수치로 증명한 첫 번째 상용급 멀티모달 모델입니다.

▲ 목차로 돌아가기

핵심 구조 해부: 중간 융합 아키텍처와 SigLIP-2

중간 융합(Mid-Fusion)을 선택한 이유

비전-언어 모델(VLM) 아키텍처는 크게 두 가지 방향으로 나뉩니다. 이미지와 텍스트를 단일 트랜스포머에서 함께 처리하는 초기 융합(Early-Fusion), 그리고 사전 학습된 비전 인코더로 이미지를 토큰으로 변환한 뒤 언어 모델 임베딩 공간에 투영하는 중간 융합(Mid-Fusion)입니다. 마이크로소프트는 초기 융합이 더 풍부한 표현을 만들지만 메모리, 컴퓨팅, 데이터 비용이 기하급수적으로 늘어난다는 점을 고려해 중간 융합을 선택했습니다. 제한된 자원으로 최고의 성능을 뽑겠다는 현실적인 판단이었습니다.

SigLIP-2 Naflex: 고해상도 이미지의 진가를 살리다

비전 인코더로는 SigLIP-2의 Naflex 변형이 채택되었습니다. 연구팀이 Dynamic-S2, Multi-crop 등 4가지 방법을 직접 비교 실험한 결과, 동적 해상도 방식이 특히 고해상도 데이터에서 압도적으로 우수했습니다. 최대 3,600개의 시각적 토큰을 처리할 수 있는 이 인코더는 실질적으로 720p 해상도에 해당하는 이미지를 손실 없이 처리하며, 버튼·메뉴·텍스트 필드처럼 작은 UI 요소도 정확히 인식합니다. ScreenSpot-Pro 벤치마크에서 동적 해상도 3,600 토큰 방식이 2,048 토큰 방식 대비 ScreenSpot-Pro 점수를 9.2에서 17.5로 거의 2배 끌어올린 것이 이를 방증합니다.

백본 언어 모델로는 Phi-4-Reasoning을 사용했습니다. 이미 추론 능력이 탑재된 언어 모델을 베이스로 썼다는 점이 이후 설명할 ‘혼합 추론 전략’의 핵심 전제가 됩니다. 추론을 처음부터 가르치는 것이 아니라, 이미 잘 추론하는 모델에게 시각적 맥락을 연결시키는 방식으로 학습 부담을 대폭 낮춘 것입니다.

구성 요소 선택지 이유
융합 방식 Mid-Fusion 컴퓨팅·데이터 효율 우선
비전 인코더 SigLIP-2 Naflex 동적 해상도, 고해상도 GUI 강점
언어 백본 Phi-4-Reasoning (14B) 추론 능력 내재화, 추론 데이터 절약
최대 시각 토큰 3,600개 720p 수준 이미지 처리 가능

▲ 목차로 돌아가기

혼합 추론 전략: 언제 생각하고 언제 바로 답하나

추론이 독이 되는 순간

최근 AI 업계의 가장 큰 트렌드는 ‘리즈닝 모델’입니다. OpenAI의 o시리즈, DeepSeek R1 등은 답을 내기 전에 단계적으로 생각하는 과정을 거침으로써 복잡한 문제를 더 잘 풀어냅니다. 그런데 멀티모달 환경에서는 이 전략이 오히려 독이 될 수 있습니다. 이미지 캡션 생성이나 OCR(문자 인식)처럼 직관적 지각이 중심인 작업에서는 장황한 추론 과정이 정확도를 오히려 낮추고 응답 속도만 느리게 만든다는 연구 결과가 있습니다. Phi-4-Reasoning-Vision-15B는 바로 이 지점을 정면으로 해결합니다.

20/80 데이터 분할의 철학

모델의 학습 데이터 중 약 20%는 추론 데이터(Reasoning), 나머지 80%는 직접 응답 데이터(Non-Reasoning)로 구성됩니다. 추론 데이터는 수학·과학 문제 풀이처럼 단계별 사고가 필요한 영역에 집중되며, <think>…</think> 태그로 체인-오브-소트 흔적이 명시됩니다. 직접 응답 데이터는 캡션 생성, OCR, 간단한 VQA 등 지각 중심 작업에 집중되며 <nothink> 토큰으로 즉각 응답 신호를 줍니다. 이 구조 덕분에 모델은 문제의 성격을 파악하고 스스로 추론 여부를 결정합니다.

이 설계가 얼마나 영리한가를 보여주는 데이터가 있습니다. 연구팀이 ‘무조건 추론’, ‘무조건 직접 응답’, ‘혼합 기본값’ 세 가지 모드를 비교했을 때, 평균 정확도는 혼합 기본값 모드가 가장 높았습니다. 즉, AI가 스스로 언제 생각할지를 판단하도록 훈련하는 것이 인간이 모드를 고정하는 것보다 전반적으로 더 나은 결과를 낸다는 것입니다. 물론 사용자가 원한다면 <think> 또는 <nothink> 토큰으로 수동 오버라이드도 가능합니다.

💡 직접 테스트 팁

수학 문제를 풀 때는 <think> 토큰을 명시적으로 사용하면 MathVerse 점수 기준 44.9 → 53.1로 약 8점 이상 향상됩니다. 단순 이미지 설명이나 영수증 인식에는 <nothink>를 붙이면 응답 속도가 체감상 2~3배 빨라집니다.

▲ 목차로 돌아가기

벤치마크 성적표: 숫자로 보는 실력과 한계

10개 벤치마크 종합 점수 비교

마이크로소프트 연구팀은 자체 벤치마크 실행 결과를 공개했습니다. 리더보드 수치를 그대로 인용하지 않고 직접 실험한 뒤 로그까지 공개하는 투명성은 업계에서도 드문 관행입니다. 아래는 주요 경쟁 모델 대비 핵심 지표 비교표입니다.

벤치마크 Phi-4-RV-15B Qwen3-VL-8B Qwen3-VL-32B Kimi-VL-A3B Gemma3-12B
AI2D (과학 다이어그램) 84.8 82.7 84.8 84.6 80.4
ChartQA (차트 분석) 83.3 83.1 84.3 87.0 39.0
MathVista (수학 추론) 75.2 77.1 82.5 67.1 57.4
ScreenSpot v2 (UI 인식) 88.2 91.5 93.7 89.8 3.5
MMMU (종합 이해) 54.3 60.7 68.6 52.0 50.0

이 숫자가 의미하는 것과 의미하지 않는 것

표를 보면 Phi-4-Reasoning-Vision-15B는 Gemma3-12B와 Kimi-VL-A3B보다 전반적으로 앞서고, 동급인 Qwen3-VL-8B와 어깨를 나란히 합니다. 반면 Qwen3-VL-32B에는 대부분 뒤처집니다. 하지만 이 비교는 순수 정확도 기준이며, 마이크로소프트가 진짜 강조하는 것은 ‘정확도 대 추론 시간’의 파레토 프론티어입니다. 같은 응답 시간 예산 안에서 정확도를 비교하면 Phi-4-Reasoning-Vision-15B가 훨씬 유리한 위치에 있습니다.

솔직히 말하면, 원초적인 수학 추론 능력(MathVerse, MathVision)에서는 32B 규모의 Qwen 모델이 여전히 우위입니다. 이 모델이 모든 상황에서 최선의 선택은 아닙니다. 하지만 속도, 비용, 설치 편의성을 모두 고려한 ‘현실 배포 시나리오’에서는 15B 모델이 32B 모델보다 훨씬 매력적인 선택이 된다는 사실을 이 벤치마크는 방증하고 있습니다.

▲ 목차로 돌아가기

실전 활용 시나리오: 이 모델이 빛나는 5가지 장면

Phi-4-Reasoning-Vision-15B는 용도가 명확한 모델입니다. 아래 다섯 가지 시나리오는 공식 MS 리서치 블로그와 VentureBeat의 심층 분석을 종합해 도출한 핵심 활용처입니다.

01
수학·물리 숙제 도우미

손으로 쓴 수식 이미지를 찍어 보내면, 모델이 오류를 찾고 단계별 풀이를 제시합니다. 이차방정식 부호 오류 탐지, 스프링-질량 시스템 계산, 물리 도형 기반 추론까지 공식 예시로 공개된 사례들입니다. 연산 과정을 직접 보여주기 때문에 답만 주는 도구와 차원이 다릅니다.

02
컴퓨터 사용 에이전트(CUA) 베이스 모델

ScreenSpot v2에서 88.2점을 기록한 이 모델은 PC·웹·모바일 화면의 버튼, 메뉴, 입력 필드를 정확히 인식하고 클릭 좌표를 추론합니다. 저지연·소형 모델이 필수인 실시간 에이전트 환경에서 가장 경쟁력 있는 베이스 모델 중 하나입니다. RPA(로봇 프로세스 자동화) 파이프라인에 통합할 때 특히 유리합니다.

03
문서·영수증·차트 자동 판독

OCR 76점, ChartQA 83.3점으로 실무 수준의 문서 처리 능력을 보유합니다. PDF 영수증 자동 회계 처리, 리포트 차트 수치 추출, 과학 논문 수식 LaTeX 변환 등 기업 문서 자동화 파이프라인에 바로 적용할 수 있습니다.

04
이미지 시퀀스 변화 추론

여러 장의 이미지를 시간 순서로 입력하면 변화 흐름을 해석합니다. 허블 망원경이 촬영한 토성 사진 5장을 넣고 고리 경사 변화를 분석하거나, 공장 라인 이미지 시퀀스에서 이상 패턴을 감지하는 방식으로 활용 가능합니다.

05
온디바이스·엣지 AI 배포

15B 규모는 소비자 GPU(RTX 4090 기준)나 서버 소형 인스턴스에서도 실행 가능합니다. 클라우드 API 비용 없이 사내 서버나 엣지 디바이스에 직접 배포해 데이터 프라이버시를 지키면서도 멀티모달 AI 기능을 구현할 수 있습니다. 오픈웨이트 + 퍼미시브 라이선스 조합이 이를 가능하게 합니다.

▲ 목차로 돌아가기

데이터 효율의 비밀: 2,000억 토큰으로 1조 토큰을 이기는 법

손으로 걸러낸 데이터의 힘

마이크로소프트 연구팀이 이 모델을 만들면서 가장 많은 시간을 쏟은 것은 모델 아키텍처가 아니라 데이터 품질 관리였습니다. 팀원들은 각 오픈소스 데이터셋의 샘플을 직접 손으로 검토했습니다. 한 데이터셋당 5~10분씩 들여 품질을 분류하고, 오답이 포함된 경우 GPT-4o와 o4-mini를 활용해 재생성했습니다. 이미지는 훌륭하지만 질문의 수준이 낮은 경우에는 이미지를 씨앗 삼아 새로운 VQA 데이터를 만들었습니다.

연구팀이 특히 강조한 발견이 있습니다. “널리 사용되는 오픈소스 데이터셋에서 놀라울 만큼 많은 서식 오류와 논리 오류를 수정했다.” 이 문장이 함의하는 바는 매우 큽니다. 업계 최대 모델들이 기반으로 삼는 데이터에 체계적인 오류가 포함되어 있을 가능성이 있다는 것입니다. 마이크로소프트는 이 문제를 피하기 위해 규모보다 큐레이션을 선택했고, 그 결과가 2,000억 토큰으로 1조 토큰 모델과 경쟁하는 성과로 이어졌습니다.

합성 데이터의 전략적 활용

차트, 문서, 수식처럼 텍스트 중심 시각 추론이 중요한 영역에서는 프로그램으로 생성한 합성 데이터를 적극 투입했습니다. arXiv 논문에서 수식을 추출해 렌더링한 LaTeX-OCR 데이터, 수학 문제 이미지에 단계별 해설을 직접 붙인 데이터 등이 그 예입니다. 실제 데이터가 가진 주석 오류와 분포 편향을 줄이는 데 합성 데이터가 유효한 보완재임을 이번 연구가 다시 한 번 확인했습니다.

▲ 목차로 돌아가기

Phi 패밀리의 미래: 로봇·온디바이스·기업 AI로 확장

Phi 시리즈의 2년 여정

Phi-4-Reasoning-Vision-15B는 독립된 모델이 아닙니다. 마이크로소프트가 지난 2년 동안 꾸준히 구축해 온 Phi 시리즈의 가장 야심 찬 챕터입니다. 2024년 말 Phi-4(14B) 언어 모델로 시작해, 2025년 4월 Phi-4 mini reasoning(3.8B)·Phi-4 reasoning(14B)·Phi-4 reasoning plus가 연달아 출시됐고, 그 정점으로 이번 멀티모달 모델이 도착한 것입니다.

로봇 AI로의 첫 발걸음: Rho-alpha

가장 주목할 Phi 시리즈의 확장은 로봇 분야입니다. 마이크로소프트는 Phi 시리즈에서 파생된 최초의 로보틱스 모델 ‘Rho-alpha(ρα)’를 발표했습니다. 이 모델은 자연어 명령을 로봇 제어 신호로 변환하고, 촉각 감지 기능을 인식 스택에 추가해 양팔 조작 로봇과 휴머노이드 로봇을 타깃으로 개발됐습니다. Phi의 설계 철학 ‘작고 효율적인 모델로 실용적 문제를 푼다’가 물리적 세계로 확장되는 순간입니다.

온디바이스 방향으로도 확장이 가속되고 있습니다. Phi Silica는 Copilot+ PC에 탑재된 온디바이스 SLM으로, LoRA 파인튜닝을 통해 교육 플랫폼에서 Kahoot 퀴즈를 자동 생성하는 용도로 쓰이며 거부율 75% 감소, 품질 4.6배 향상을 기록했습니다. Phi-4-mini는 MediaTek Dimensity 9400 NPU에서 초당 800 토큰 이상의 prefill 속도를 달성해 스마트폰·태블릿 실시간 AI의 가능성을 열었습니다.

💡 나의 판단

마이크로소프트가 Phi 시리즈를 통해 노리는 것은 단순한 AI 모델 판매가 아닙니다. 오픈웨이트로 생태계를 키우면서 모든 다운스트림 서비스가 Azure, GitHub, Microsoft 개발 도구로 자연스럽게 수렴하도록 설계한 장기 플랫폼 전략입니다. Phi-4-Reasoning-Vision-15B를 ‘무료 모델’로 보는 것은 너무 단순한 시각입니다.

▲ 목차로 돌아가기

Q&A 5문 5답

Q1
Phi-4-Reasoning-Vision-15B는 무료로 사용할 수 있나요?
모델 가중치 자체는 Hugging Face와 GitHub에서 퍼미시브 라이선스(MIT 계열)로 무료 다운로드 가능합니다. 단, Microsoft Foundry(Azure AI)를 통해 API로 호출할 경우 호출 횟수 및 토큰 기준의 사용 요금이 발생합니다. 로컬 환경에 직접 설치해 사용하는 것은 상업적 용도를 포함해 대부분의 경우 무료입니다.
Q2
한국어 지원 수준은 어떻습니까?
Phi-4 계열은 영어 및 수학·코드 데이터 중심으로 학습되어 한국어 생성 품질은 GPT-4o나 Claude 4 계열에 비해 낮을 수 있습니다. 텍스트 인식(OCR) 영역에서 한국어 이미지를 처리하는 데 일부 제약이 있을 수 있으며, 한국어 프롬프트에 대한 응답 품질은 영어 대비 저하될 가능성이 있습니다. 한국어 특화 파인튜닝 버전은 커뮤니티에서 추후 등장할 가능성이 있습니다.
Q3
로컬 실행에 필요한 최소 사양은 무엇인가요?
15B 파라미터 모델을 FP16(반정밀도)으로 로드할 경우 약 30GB VRAM이 필요합니다. NVIDIA RTX 4090 (24GB) 단일 GPU로는 4비트 양자화(Q4) 버전을 사용해야 하며, Q4 기준으로는 약 8~10GB VRAM에서 실행 가능합니다. CPU 실행(llama.cpp 등)도 가능하나 응답 속도가 GPU 대비 5~10배 느려집니다. 16GB RAM 이상의 일반 게이밍 PC + RTX 3080/4070급 GPU 환경이 실용적인 최소 사양입니다.
Q4
Q5
파인튜닝이 가능한가요? 라이선스 제약은?
네, 파인튜닝 코드와 벤치마크 로그까지 함께 공개됐습니다. 라이선스는 퍼미시브(MIT 계열)로 상업적 파인튜닝과 재배포가 대부분 허용됩니다. 다만 Microsoft의 이용 약관상 악의적 목적 사용(무기화, 개인 식별 악용 등)은 명시적으로 금지됩니다. 자세한 내용은 Hugging Face 모델 카드의 라이선스 섹션을 반드시 확인하시기 바랍니다.

▲ 목차로 돌아가기

마치며: 총평

Phi-4-Reasoning-Vision-15B는 단순한 ‘소형 모델의 선전’이 아닙니다. 이 모델이 보여주는 것은 AI 개발에서 규모가 유일한 무기가 아니라는 사실입니다. 마이크로소프트는 데이터 큐레이션, 아키텍처 최적화, 훈련 전략의 정교함으로 경쟁사 대비 5분의 1 규모의 데이터를 쓰고도 파레토 프론티어를 새로 그렸습니다.

물론 한계는 분명합니다. 최고 난이도의 수학 추론, 종합 멀티모달 이해력(MMMU), 한국어 지원 수준에서는 더 큰 모델에 밀립니다. 하지만 개인 개발자, 스타트업, 자체 AI 인프라를 구축하려는 기업 입장에서 이 모델이 제공하는 가성비는 어떤 경쟁 모델도 쉽게 따라오기 힘든 수준입니다.

AI 모델을 선택할 때 이제 “가장 좋은 모델은 무엇인가”가 아니라 “내 상황에 가장 적합한 모델은 무엇인가”를 먼저 물어야 합니다. Phi-4-Reasoning-Vision-15B가 그 질문에 대한 설득력 있는 하나의 답이 될 수 있습니다. 지금 Hugging Face에서 모델을 받아 직접 테스트해 보시기 바랍니다. 논문 수치보다 내 사용 환경에서의 성능이 진짜 기준이니까요.

▲ 목차로 돌아가기

※ 본 게시글은 마이크로소프트 공식 리서치 블로그, Hugging Face 모델 카드, VentureBeat 분석 기사를 바탕으로 작성된 정보 제공 목적의 콘텐츠입니다. 벤치마크 수치는 마이크로소프트 자체 평가 기준이며, 독립적인 검증 결과와 차이가 있을 수 있습니다. 라이선스 및 이용 조건은 반드시 공식 모델 카드를 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기