MAI-Image-2, 3위 숫자가 말 안 해주는 것들

Published on

in

MAI-Image-2, 3위 숫자가 말 안 해주는 것들

2026.03.19 기준
MAI Playground 기준
IT/AI

MAI-Image-2, 3위 숫자가 말 안 해주는 것들

MAI-Image-2는 세계 3위 AI 이미지 생성 모델이라는 타이틀을 달고 나왔습니다. 근데 막상 MAI Playground에서 직접 눌러보면, 그 숫자 뒤에 숨어 있는 제약들이 꽤 구체적으로 보입니다. Microsoft가 의도적으로 고른 보수적 결정들이고, 그게 어떤 의미인지 지금부터 짚어봅니다.

#3
Arena.ai 세계 순위
5개월
9위 → 3위 걸린 시간
15장
1일 생성 한도
1:1
지원 비율 (유일)

5개월 만에 6계단 — MAI-Image-2가 나온 배경

MAI-Image-2는 2026년 3월 19일, Microsoft AI의 초지능 팀(Superintelligence Team)이 공식 발표한 텍스트-이미지 생성 모델입니다. (출처: Microsoft AI 공식 블로그, 2026.03.19) 이 모델의 전신인 MAI-Image-1은 2025년 10월 처음 공개됐을 때 Arena.ai 리더보드에서 9위로 출발했습니다. 그로부터 딱 5개월 만에 3위로 올라선 겁니다.

그것도 가볍게 3위가 아닙니다. 지금 1위는 Google의 Gemini 3.1 Flash, 2위는 OpenAI의 GPT-Image 1.5입니다. 5개월 전에 9위였던 모델이 현재 OpenAI와 Google 바로 아래에 붙어 있다는 건, 이 팀이 얼마나 빠르게 움직이고 있는지를 보여줍니다. (출처: the-decoder.com, 2026.03.19)

이 팀을 이끄는 사람은 무스타파 술레이만(Mustafa Suleyman)입니다. 그는 2025년 11월 MAI 초지능 팀을 결성하고, 2026년 3월 17일에는 기존의 Microsoft AI CEO 역할에서 물러나 이 팀에만 집중하겠다고 발표했습니다. MAI-Image-2는 그 조직 개편 이후 처음으로 공개된 모델입니다. 새 팀장이 부임하고 이틀 만에 세계 3위 모델이 나온 셈이라, 타이밍이 무관하지 않습니다.

▲ 목차로 돌아가기

세 가지를 파고든 이유가 있습니다

MAI-Image-2의 핵심 기능은 세 가지입니다. 첫째, 강화된 포토리얼리즘. 자연광, 피부 톤의 정확도, 질감이 살아 있는 배경 구현입니다. 둘째, 이미지 내 텍스트 렌더링. 포스터, 인포그래픽, 슬라이드, 다이어그램 같은 텍스트 포함 이미지를 의도대로 만들어냅니다. 셋째, 복잡하고 세밀한 장면 생성. 초현실적 개념, 영화적 구도, 세밀한 판타지 장면까지 처리합니다. (출처: Microsoft AI 공식 블로그, 2026.03.19)

이 세 가지를 고른 건 Microsoft가 벤치마크 점수만 보고 설계한 게 아닙니다. 사진작가, 디자이너, 비주얼 스토리텔러들과 직접 인터뷰하면서 현장에서 가장 답답했던 부분을 추렸다고 합니다. 기존 AI 이미지 모델들이 이미지 속 글자를 틀리게 그리는 문제, 피부색이 부자연스러운 문제를 콕 집어서 집중한 것도 그래서입니다. 실사용 피드백이 설계 방향을 이끈 셈입니다.

특히 텍스트 렌더링은 이번 MAI-Image-2가 가장 실질적으로 차별화되는 지점입니다. 많은 AI 이미지 모델이 이미지 안의 글자를 뭉개거나 뒤섞어 내놓는 문제가 있는데, MAI-Image-2는 복잡한 타이포그래피와 다국어 글자 일부까지 처리했다는 실사용 보고가 있습니다. 완벽하지는 않지만, 시도 자체가 달라졌습니다.

💡 공식 발표문과 실제 사용자 후기를 같이 놓고 보니 이런 차이가 보였습니다 — Microsoft는 ‘크리에이터와 함께 만들었다’고 했는데, 그 크리에이터들이 가장 원하는 기능(이미지 편집, 다양한 화면 비율)은 정작 이번에 빠져 있습니다. 어떤 크리에이터들과 이야기했는지 공식 문서에서 구체적인 직군 정보를 밝히지 않았습니다.

▲ 목차로 돌아가기

리더보드 순위보다 실제가 더 높았습니다

솔직히 말하면 이게 가장 흥미로운 부분입니다. MAI-Image-2는 Arena.ai에서 세계 3위입니다. 그런데 여러 매체의 직접 테스트 결과를 보면, 실제 이미지 품질과 텍스트 렌더링에서는 2위인 OpenAI의 GPT-Image 1.5를 오히려 앞서는 경우가 반복해서 확인됐습니다. (출처: MEXC News, 2026.03.19 / winbuzzer.com, 2026.03.20)

왜 이런 역전이 생길까요? Arena.ai 리더보드는 표준화된 객관 지표가 아니라, 익명 사용자들이 두 모델의 결과물을 보고 선호하는 쪽에 투표하는 방식으로 점수가 매겨집니다. 다시 말해 특정 작업 유형에서의 객관적 성능보다, 일반 대중이 어떤 결과물을 더 ‘보기 좋다’고 느끼는지가 순위에 반영됩니다. 사진작가가 선호하는 ‘정확한 피부 톤’과 일반 사용자가 선호하는 ‘예뻐 보이는 이미지’는 다를 수 있습니다.

💡 리더보드 순위와 실제 사용 결과를 교차해서 보니 이런 그림이 나왔습니다 — 3위가 2위보다 특정 작업에서 더 잘 나온다는 건, Arena.ai 투표 방식의 한계이기도 하고 동시에 MAI-Image-2가 ‘대중 취향’보다 ‘실무 정확도’를 우선했다는 신호이기도 합니다.

직접 확인하고 싶다면 아래 방법이 있습니다. MAI Playground(playground.microsoft.ai)에서 텍스트가 포함된 포스터 이미지를 요청해보고, 같은 프롬프트를 ChatGPT의 GPT-Image 기능에도 넣어보면 됩니다. 텍스트 정확도와 피부 표현 차이가 바로 눈에 들어옵니다. 프롬프트 예시: “A minimalist poster with the text ‘Spring Market 2026’, pastel colors, clean sans-serif typography”

▲ 목차로 돌아가기

창작자용이라는데, 창작자가 가장 필요한 게 빠졌습니다

MAI-Image-2의 현재 제약 사항들을 보면 꽤 구체적입니다. 우선 출력 비율은 1:1만 가능합니다. 가로형, 세로형, 16:9, 9:16 — 아무것도 없습니다. 소셜 미디어 콘텐츠를 만드는 디자이너에게 1:1만 지원한다는 건 작업 도구로서 바로 한계에 부딪힙니다. 인스타그램 스토리도 안 되고, 유튜브 썸네일도 안 됩니다. (출처: MEXC News 직접 테스트 보고, 2026.03.19)

항목 MAI-Image-2 Adobe Firefly Midjourney
이미지 비율 지원 1:1만 다양 다양
인페인팅/아웃페인팅 미지원 지원 지원
이미지 → 이미지 미지원 지원 지원
일일 생성 한도 15장 플랜별 상이 플랜별 상이
생성 쿨다운 30초 없음 없음

(출처: MEXC News 실측, winbuzzer.com 분석, 2026.03 기준 / 각 서비스 정책은 변경될 수 있음)

콘텐츠 필터링도 경쟁사 대비 상당히 엄격합니다. Google Imagen이나 OpenAI의 이미지 모델보다 훨씬 보수적으로 세팅돼 있어서, 실제 테스트에서 ‘거미가 여성을 쫓는 만화 그림’을 요청했더니 거절당했습니다. 그림체 요청인데도요. 공포 일러스트레이션이나 긴장감 있는 장면을 다루는 작업자에게는 지금 당장 실무 도구로 쓰기가 어렵습니다. 이 부분에 대해 Microsoft가 공식적으로 이유를 밝히지 않았습니다.

그 이유를 짐작해볼 수 있는 전례가 있습니다. 2025년 1월, Microsoft는 Bing Image Creator 업데이트 후 품질 불만이 쏟아지자 롤백했습니다. 서둘러 내보낸 결과물에 데인 경험이 있기 때문에, 이번엔 일부러 제한을 두고 천천히 가는 방향을 택한 것으로 보입니다. 보수적인 제품 결정 뒤에 있는 맥락입니다.

▲ 목차로 돌아가기

Microsoft가 이걸 굳이 직접 만드는 진짜 이유

💡 공개된 재무 구조와 제품 전략을 교차해서 보면 이런 그림이 나옵니다 — Microsoft는 지금 OpenAI에 수십억 달러를 지불하면서, 동시에 OpenAI의 가장 큰 경쟁자인 Anthropic에도 투자하고 있습니다. MAI-Image-2는 그 구조를 흔드는 첫 번째 실질적 신호입니다.

1년 전까지 Microsoft는 Bing과 Copilot의 이미지 생성을 거의 전적으로 OpenAI 모델에 의존하고 있었습니다. 그러면서 동시에 OpenAI의 경쟁사인 Anthropic에 대규모 투자를 집행했습니다. 겉보기엔 모순처럼 보이지만, 핵심은 ‘의존도 분산’입니다. 한 파트너에게 완전히 묶이는 상황을 피하려는 전략적 행보였습니다.

MAI-Image-2가 세계 3위에 오른 지금, Microsoft는 OpenAI와의 협상 테이블에서 완전히 다른 위치에 서게 됩니다. ‘우리도 직접 만들 수 있다’는 카드가 생긴 겁니다. 실제로 thenextweb은 이 대목을 “의존에서 벗어난 첫 번째 실질적 이정표”로 표현했습니다. (출처: thenextweb.com, 2026.03.19) 협상력이 달라지는 순간입니다.

거기에 한 가지 더 있습니다. MAI Superintelligence Team은 지금 NVIDIA의 Blackwell 아키텍처 기반 GB200 클러스터를 직접 운영하고 있다고 발표했습니다. (출처: Microsoft AI 공식 블로그, 2026.03.19) 연산 자원을 다른 회사에서 빌리는 것이 아니라 직접 소유하고 돌리는 구조로 전환됐습니다. 인프라까지 직접 챙기기 시작했다는 건, 모델 개발 속도와 방향을 완전히 자체적으로 제어할 수 있게 됐다는 의미입니다.

▲ 목차로 돌아가기

지금 써야 할까, 아니면 기다려야 할까

결론부터 말씀드리면, 용도에 따라 답이 다릅니다. 포스터나 인포그래픽처럼 텍스트가 이미지 안에 들어가는 작업이라면 MAI-Image-2는 지금 당장 써볼 가치가 있습니다. 이 부분에서 기존 모델들이 오랫동안 실망을 줬던 걸 생각하면, 확실히 나아진 게 맞습니다.

반면 영상 콘텐츠, 인스타그램 세로 피드, 유튜브 썸네일처럼 비율이 다양해야 하는 작업에는 지금은 맞지 않습니다. API 기반 프로덕션 워크플로우에 넣고 싶다면, 일부 엔터프라이즈 고객에게만 API가 열려 있는 현재 상황이 걸립니다. Microsoft Foundry를 통한 전면 개방 시점은 아직 구체적으로 공개되지 않았습니다.

MAI Playground에서 무료로 테스트해볼 수는 있는데, 미국 외 지역에서는 접근이 제한될 수 있습니다. 현재 Copilot과 Bing Image Creator에도 순차적으로 적용되고 있지만, 2026년 3월 27일 기준으로 Copilot에서는 아직 MAI-Image-2가 완전히 반영되지 않은 상태입니다. 기대했던 것과 달랐다면, 실제 적용이 완료되지 않은 타이밍 문제일 가능성이 높습니다.

▲ 목차로 돌아가기

자주 묻는 질문

MAI-Image-2는 무료로 쓸 수 있나요?
MAI Playground(playground.microsoft.ai)에서 현재 무료로 테스트 가능합니다. 다만 하루 15장 한도가 있고, 장당 생성 후 30초 쿨다운이 적용됩니다. 미국 외 지역에서는 접근이 막힐 수 있습니다. API를 통한 대규모 사용은 현재 선정된 엔터프라이즈 고객에게만 열려 있습니다.
Copilot에서도 MAI-Image-2를 쓸 수 있나요?
적용이 진행 중입니다. Microsoft가 Copilot과 Bing Image Creator에 MAI-Image-2를 순차 적용하겠다고 발표했지만, 2026년 3월 27일 기준으로는 완전히 반영되지 않은 상태입니다. Bing Image Creator 쪽이 조금 더 빠르게 적용될 것으로 예상됩니다.
MAI-Image-1이랑 얼마나 차이가 납니까?
체감 차이가 꽤 큽니다. MAI-Image-1은 2025년 10월에 Arena.ai 9위로 출발했고, 당시에는 주목받지 못했습니다. MAI-Image-2는 5개월 만에 세계 3위로 올라섰고, 특히 텍스트 렌더링과 포토리얼리즘에서 눈에 띄는 개선이 있었습니다. 단순 성능 수치가 아니라 실사용자 피드백 기반으로 설계 방향 자체를 바꾼 결과입니다.
1:1 비율 제한은 언제 풀릴까요?
Microsoft가 현재 공개적으로 일정을 밝히지 않았습니다. 다만 업계 분석가들은 Copilot 전면 적용과 함께 비율 옵션이 추가될 가능성이 높다고 보고 있습니다. 소셜 미디어 활용이 Copilot의 핵심 사용 시나리오인 만큼, 1:1만으로는 한계가 명확하기 때문입니다.
한국어 프롬프트로도 됩니까?
MAI Playground에서 한국어 프롬프트 입력 자체는 가능합니다. 다만 이미지 내 한국어 텍스트 렌더링(한글 글자를 이미지 안에 정확하게 그려주는 기능)은 아직 완성도가 낮습니다. 영문 텍스트 렌더링이 강점이고, 한글을 포함한 비라틴 문자 처리는 발전이 필요한 단계입니다. 이 부분에 대해 Microsoft가 공식 언급을 내놓지 않은 상태입니다.

▲ 목차로 돌아가기

마치며

MAI-Image-2는 기술적으로는 인상적입니다. 5개월 만에 9위에서 3위로, OpenAI와 Google 바로 아래에 붙어 있다는 건 가볍게 넘길 일이 아닙니다. 특히 텍스트 렌더링과 포토리얼리즘에서는 리더보드 순위보다 실제 결과물이 더 좋다는 평가도 나왔습니다.

그런데 제품으로서는 아직 반쪽입니다. 1:1 비율만 지원, 하루 15장 한도, 편집 기능 전무 — 이건 실수가 아니라 의도적인 보수성입니다. 2025년 1월에 Bing Image Creator 품질 논란으로 롤백했던 경험이 있는 Microsoft가 이번에는 완성도를 먼저 챙기고 배포를 천천히 가는 방향을 택한 것으로 보입니다.

개인적으로는 제약들이 풀리는 시점이 더 중요하다고 봅니다. 지금은 ‘MAI-Image-2가 뭔지 파악하기 좋은 시기’이고, Copilot에 완전히 녹아들고 비율 제한이 풀리는 시점이 ‘진짜 써먹기 시작하기 좋은 시기’가 될 겁니다. 텍스트 포함 이미지 작업을 자주 하는 분이라면, 지금 MAI Playground에서 미리 손에 익혀두는 게 나쁘지 않습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Microsoft AI 공식 블로그 — Introducing MAI-Image-2: for limitless creativity
    https://microsoft.ai/news/introducing-mai-image-2/ (2026.03.19)
  2. the-decoder.com — Microsoft’s superintelligence team ships MAI-Image-2
    https://the-decoder.com/microsofts-superintelligence-team-ships-mai-image-2-a-text-to-image-generator/ (2026.03.19)
  3. MEXC News — Microsoft Launches MAI-Image-2 — Hands-on Test & Limitations
    https://www.mexc.com/news/966898 (2026.03.19)
  4. winbuzzer.com — Microsoft’s MAI-Image-2 Cracks Arena Leaderboard Top Three but Ships with Tight Limits
    https://winbuzzer.com/2026/03/20/microsoft-mai-image-2-top-three-ai-image-generation-restrictions-xcxwbn/ (2026.03.20)
  5. thenextweb.com — Microsoft’s MAI-Image-2 enters the top three AI image generators
    https://thenextweb.com/news/microsoft-mai-image-2-top-three-arena-leaderboard (2026.03.19)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. MAI-Image-2의 접근 가능 지역, 일일 생성 한도, 지원 비율 등은 Microsoft의 정책 업데이트에 따라 달라질 수 있습니다. 수치 및 순위 정보는 2026년 3월 기준이며, Arena.ai 리더보드 순위는 실시간으로 변동됩니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기