2026.03.25 기준
Excel 에이전트 모드 GA
M365 Copilot Wave 3

엑셀 에이전트 모드, 데스크탑서 다 될까요?

Microsoft가 2026년 3월, 엑셀 에이전트 모드(Agent Mode)를 데스크탑(Windows·Mac)에서 정식 출시(GA)했습니다. 웹 버전에서 시작해 이제 데스크탑까지 확장됐다는 소식은 맞습니다. 그런데 막상 뜯어보면 “다 됩니다”라고 하기 어려운 조건들이 꽤 있습니다. 공식 발표문과 벤치마크 수치를 직접 교차해봤습니다.

57.2%

SpreadsheetBench 정확도

EU·UK

아직 사용 불가

2개

선택 가능한 AI 모델

에이전트 모드, 지금 실제로 어디까지 됩니까?

웹에서 시작해 데스크탑으로 — 확장 타임라인

엑셀 에이전트 모드는 2025년 9월 프리뷰(웹 한정)로 처음 공개됐고, 2025년 12월 웹 버전 GA를 거쳐 2026년 3월 Windows·Mac 데스크탑까지 정식 출시됐습니다. (출처: Microsoft Tech Community, 2026.03) 자연어로 목표를 던지면 스스로 계획을 세우고, 엑셀 API를 직접 실행해 결과를 검증하는 루프를 반복하는 구조입니다.

할 수 있다고 명시된 작업들

공식 FAQ에 따르면 시트 추가·삭제, 셀 값 입력, 조건부 서식, 피벗테이블·차트 생성, 여러 시트에 걸친 수식 실행, 웹 검색 기반 데이터 삽입까지 지원합니다. (출처: Microsoft Support FAQ) 단순 수식 하나가 아니라 “대출 계산기를 만들고 월별 상환 스케줄까지 표로 정리해줘” 같은 복합 요청이 가능하다는 뜻입니다.

내부 구조: 왜 단순 자동완성과 다른가?

에이전트 모드는 워크북 전체를 한 번에 읽지 않습니다. 공식 기술 문서에 따르면 전체 데이터를 컨텍스트에 던지면 모델이 과부하 걸린다는 이유로 “Blueprint + Pull 방식”을 씁니다. 먼저 워크북의 레이아웃·수식 의존성 그래프를 JSON 요약으로 밀어 넣고, 더 깊은 정보가 필요할 때만 추가로 당겨오는 구조입니다. (출처: Building Agent Mode in Excel, 2025.09) 그래서 수만 개 행짜리 파일도 이론적으로 처리할 수 있지만, 실제 한계는 따로 있습니다. 아래에서 다룹니다.

▲ 목차로 돌아가기

57.2%라는 수치, 어떻게 받아들여야 할까요?

💡 공식 발표문과 벤치마크 방법론을 같이 놓고 보니 이 수치가 어떤 맥락에서 나온 건지 다르게 보입니다.

Microsoft가 직접 공개한 수치

Microsoft는 SpreadsheetBench 912개 지시문 전체를 에이전트 모드로 돌렸을 때 57.2%의 정확도를 기록했다고 밝혔습니다. (출처: Building Agent Mode in Excel) 직접 해석하면 10개 지시문 중 4~5개는 기대한 결과가 나오지 않을 수 있다는 뜻입니다.

그런데 이 57.2%는 “현재 최고”입니다

같은 공식 문서에서 Microsoft는 Claude(Anthropic) 및 Shortcut.aI와 비교 평가를 진행했고, 에이전트 모드가 현재 시스템 중 리딩 에지라고 밝혔습니다. Claude는 912개 중 895개만 완료했고, 완료한 작업 기준으로 정확도를 산정했습니다. 57.2%가 낮아 보여도 지금 이 영역의 다른 도구들도 비슷한 수준이라는 것입니다.

단순 수치보다 중요한 것: 어떤 작업에서 틀리나?

Microsoft 스스로 “포매팅과 프레젠테이션급 레이아웃에서 개선 여지가 많다”고 공식 문서에서 인정했습니다. 복잡한 다단계 변환, 중첩 작업일수록 성공률이 더 떨어집니다. 간단한 계산이나 수식 확인은 높은 성공률을 보이지만, 1만 행 이상 대량 처리나 외부 데이터 연동이 들어가면 결과가 달라집니다.

▲ 목차로 돌아가기

“에이전트 모드”라는 이름이 사라진 이유

💡 Wave 3 공식 발표문에서 직접 확인한 내용입니다 — 이름이 바뀐 게 아니라 개념 자체가 달라졌습니다.

프리뷰 기간엔 “에이전트 모드”였습니다

Microsoft는 2026년 3월 9일 Wave 3 공식 발표문에서 이렇게 썼습니다: “프리뷰 기간 동안 이 기능들을 ‘Agent Mode’라고 불렀다. 그런데 정식 출시에 가까워질수록 이게 별도 모드가 아니라는 게 분명해졌다. 이것은 이번 Copilot의 차세대 Wave가 작동하는 방식 자체다.” (출처: Microsoft 365 Blog, 2026.03.09) 에이전트 모드가 없어진 게 아니라 Copilot의 기본 동작 방식으로 편입됐다는 뜻입니다.

실제 사용 경험에서 무엇이 달라지나?

Tools 메뉴 → Copilot → Agent Mode로 진입하는 경로는 유지됩니다. 달라진 건 내부 철학입니다. 기존 Copilot이 단일 요청에 한 번 답하는 방식이었다면, 이제 Copilot은 계획-실행-검증 루프를 기본으로 돌립니다. 수정·재시도·결과 확인이 사용자 개입 없이 내부에서 반복됩니다. 이 작동 방식 전체가 Wave 3 Copilot의 기본 상태입니다.

Word·PowerPoint·Outlook은 어떻게 됩니까?

Word는 Excel과 함께 이미 GA가 됐고, PowerPoint와 Outlook은 “향후 몇 달에 걸쳐 순차 롤아웃 예정”이라고 공식 발표문이 밝혔습니다. PowerPoint와 Outlook의 에이전트 모드 수준 기능은 2026년 하반기까지 기다려야 할 가능성이 높습니다.

▲ 목차로 돌아가기

OpenAI vs Anthropic, 어떤 모델을 골라야 할까요?

두 모델 선택이 가능해진 배경

GA 버전 에이전트 모드에는 모델 스위처가 추가됐습니다. OpenAI(GPT 5.2)와 Anthropic(Claude Opus 4.5) 중 선택하거나, Auto 모드로 두면 Copilot이 작업에 맞는 모델을 자동 선택합니다. (출처: Agent Mode Desktop GA, 2026.03) 두 모델 모두 Microsoft 365 Copilot 라이선스 또는 M365 Premium 구독자에게 제공됩니다.

어떤 상황에서 어느 모델이 유리한가?

Microsoft는 “GitHub에서의 경험을 통해 다른 추론 모델이 다른 종류의 작업에서 더 뛰어나다는 것을 알게 됐다”고 밝혔지만, 엑셀 작업 기준으로 어느 모델이 구체적으로 어떤 시나리오에서 더 낫다는 공식 비교 자료는 아직 공개하지 않았습니다. 일반적으로 빠른 구조적 문제 해결에는 OpenAI 모델이, 반복·수정이 많은 개방형 작업에는 Claude가 강점을 보인다고 알려져 있으나, 엑셀 에이전트 모드 맥락의 공식 수치는 아직 나오지 않았습니다.

Auto 모드가 항상 최선은 아닙니다

Auto 모드는 편리하지만, 어떤 모델이 선택됐는지 사용자에게 항상 표시되지는 않습니다. 결과물에 대한 책임 추적이 중요한 기업 환경이라면 명시적으로 모델을 선택해 사용하는 게 감사(audit) 측면에서 유리합니다. 이 부분은 공식 문서에서도 별도 언급이 없습니다.

▲ 목차로 돌아가기

실제 벤치마크가 보여주는 불편한 숫자들

💡 GPT for Work가 11개 동일 시나리오로 세 도구를 돌린 결과를 놓고 보니, 홍보 자료에서 보기 어려운 속도 차이가 보였습니다.

속도에서 드러나는 차이

GPT for Work가 동일 데이터셋·동일 프롬프트로 11개 시나리오를 테스트한 결과, Copilot 에이전트 모드는 11개 중 어느 하나에서도 가장 빠르지 않았습니다. 수식 오류 확인 작업 하나에서 16초(GPT for Excel)와 4분 46초(Copilot)로 약 18배 차이가 났습니다. (출처: GPT for Work AI Agents Benchmark) 정확도가 아닌 속도 기준으로는 현재 Copilot 에이전트 모드가 최선이 아닐 수 있습니다.

대량 처리에서는 ‘AI 흉내’를 냅니다

100행 메타 설명 생성 테스트에서 Copilot은 1분 13초 만에 가장 빨리 “완료”했습니다. 그런데 실제로는 AI 생성 텍스트가 아닌 수식(=LEFT(TRIM(...), 60))을 삽입해 원래 텍스트를 잘라낸 것이었습니다. 빠르게 끝나 보였지만 요청한 결과물이 아니었습니다. 같은 문제가 1,000행 테스트에서도 반복됐습니다. 대량 콘텐츠 생성 작업에서는 결과가 실제로 AI가 생성한 건지 확인하는 과정이 필요합니다.

작업 유형	Copilot 에이전트 모드	GPT for Excel	비고
수식 오류 확인	4분 46초	16초	약 18배 차이
조건부 서식	1분 57초	12초	약 10배 차이
100행 콘텐츠 생성	1분 13초 (수식 대체)	1분 57초 (AI 생성)	Copilot 결과물 부적합
1만 행 처리	15분 후 중단	11분 46초	Copilot 미완료

출처: GPT for Work AI Agents Benchmark (동일 환경, 동일 프롬프트 기준)

그럼에도 Copilot 에이전트 모드의 강점은 있습니다

외부 추가 설치 없이 엑셀 자체에 내장된다는 점, OneDrive·SharePoint 권한 및 감도 레이블을 그대로 유지한다는 점, 기업 보안 정책 안에서 작동한다는 점은 third-party 도구로 대체하기 어려운 실제 장점입니다. 속도보다 보안·거버넌스가 우선인 기업 환경에서는 이 차이가 결정적입니다.

▲ 목차로 돌아가기

EU·UK·Personal 플랜, 지금 쓰면 안 되는 경우

💡 “GA됐다”는 말이 전 세계·전 플랜을 의미하지 않습니다. 공식 문서에 명시된 제외 조건을 직접 확인했습니다.

EU와 UK는 아직 사용 불가

공식 GA 발표문에 “Personal·Family 구독자는 AI 크레딧 모델을 사용하며, EU 또는 UK 고객에게는 아직 제공되지 않는다”고 명시돼 있습니다. (출처: Agent Mode Desktop GA) 규제 환경의 차이 때문으로 보이지만 Microsoft가 별도 이유를 밝히지 않았습니다.

Personal·Family 구독자는 ‘AI 크레딧’을 씁니다

Microsoft 365 Personal·Family 구독자가 에이전트 모드를 쓰려면 별도 AI 크레딧 플랜이 필요합니다. 기업용 Microsoft 365 Copilot 라이선스(사용자당 월 약 30달러 수준)나 M365 Premium은 크레딧 차감 없이 사용할 수 있습니다. AI 크레딧은 소진 시 기능이 제한되므로, 개인 구독자라면 사용량 관리가 필요합니다.

Calculation Options가 Automatic이 아니면 작동 안 합니다

공식 FAQ의 Known Issues 항목에 “수식 계산 옵션이 Automatic이 아닐 경우 에이전트 모드가 지원되지 않는다”고 명시돼 있습니다. (출처: Microsoft Support FAQ) 파일 크기 때문에 Manual 계산으로 설정해둔 대형 워크북이라면 사용 전 수동으로 변경해야 합니다.

지금 쓸 수 없는 조건 정리

EU 또는 UK 지역 계정
M365 Personal·Family 구독 + AI 크레딧 미보유
Calculation Options → Manual 설정 파일
기업 IT 관리자가 Frontier 프로그램을 비활성화한 환경

▲ 목차로 돌아가기

Q&A

Q. 엑셀 에이전트 모드를 쓰려면 반드시 M365 Copilot 라이선스가 있어야 하나요?

Microsoft 365 Copilot 상업용 라이선스가 없어도 Microsoft 365 Personal·Family·Premium 구독자라면 사용할 수 있습니다. 단, Personal·Family는 AI 크레딧 플랜이 별도로 필요하고, EU·UK 지역은 현재 제외돼 있습니다. 기업 환경이라면 IT 관리자가 Frontier 프로그램을 활성화해야 합니다.

Q. 에이전트 모드가 워크북을 직접 수정하면, 실수로 파일이 망가지지 않나요?

변경 사항은 자동으로 저장되고, 롤백은 가능하지만 완벽한 버전 관리는 아닙니다. 공식 FAQ에서 “중요하거나 민감한 워크북은 복사본에서 에이전트 모드를 사용하는 게 좋다”고 직접 권고하고 있습니다. 또한 동시 편집(Co-authoring) 중인 파일이라면 에이전트 모드가 만든 변경이 다른 편집자에게도 바로 보입니다.

Q. OpenAI 모델과 Claude 중 뭘 선택해야 효과가 더 좋나요?

Microsoft가 엑셀 에이전트 모드 맥락의 공식 모델 비교 수치를 아직 공개하지 않았습니다. 일반적으로 구조적·반복적 수식 작업은 GPT 5.2 계열이, 설명이 많거나 개방형 추론이 필요한 작업은 Claude Opus 4.5가 유리하다고 알려져 있지만, 엑셀 에이전트 모드 기준 공식 데이터는 나오지 않은 상태입니다. Auto 모드로 두되, 결과가 기대와 다를 때 모델을 바꿔 비교해보는 것이 현실적인 접근입니다.

Q. 기존 Copilot Chat과 에이전트 모드는 뭐가 다른가요?

Copilot Chat은 대화형 보조 역할로 단순 질문·초안 작성·간단한 실행에 적합합니다. 에이전트 모드는 여러 단계에 걸친 작업을 계획·실행·검증하는 구조이고, 실제 워크북에 직접 변경을 가합니다. Microsoft는 이 둘을 명확히 분리하고 있으며, 복잡한 자동화·다단계 데이터 작업은 에이전트 모드가 맞다고 공식 문서에서 밝혔습니다.

Q. 57.2%라는 정확도가 실무에서 허용 가능한 수준인가요?

업무 성격에 따라 다릅니다. 탐색적 분석이나 대시보드 초안처럼 수정이 전제된 작업이라면 57.2%도 충분히 유용합니다. 반면 재무 보고서나 법적 근거가 되는 수치처럼 오류 허용 범위가 좁은 작업이라면 모든 결과를 사람이 검토해야 합니다. Microsoft 스스로도 공식 FAQ에서 “금융·법률·의료 민감 영역에는 Copilot 결과를 의사결정에 그대로 사용하지 말 것”이라고 명시했습니다.

▲ 목차로 돌아가기

마치며

엑셀 에이전트 모드는 데스크탑 GA를 통해 진짜 쓸 수 있는 도구가 됐습니다. 그런데 “이제 다 됩니다”라고 하기엔 조건이 많습니다. 57.2% 정확도, EU·UK 미출시, AI 크레딧 모델, 대량 처리 시의 수식 대체 문제. 이것들을 알고 쓰는 것과 모르고 쓰는 건 결과가 다릅니다.

솔직히 말하면, 단순 작업에서는 경쟁 서드파티 도구보다 느립니다. 하지만 기업 보안·거버넌스 환경 안에서 아무 설치 없이 작동하고, OneDrive·SharePoint 권한을 그대로 유지하며, OpenAI와 Claude 두 모델을 번갈아 쓸 수 있다는 건 third-party로는 대체하기 어려운 장점입니다.

탐색·초안·반복 수정이 전제된 작업에 쓰고, 최종 수치는 직접 확인하는 습관을 갖추면 실무에서 충분히 가치 있는 도구입니다. Wave 3가 완전히 안착되는 시점에 어떤 수치가 나오는지 지켜볼 필요가 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. Microsoft 365 및 Copilot 서비스는 정기적인 업데이트로 기능·정책·UI가 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 Microsoft 공식 문서에서 확인하시기 바랍니다. 본 포스팅은 특정 제품 구매 또는 서비스 가입을 권유하는 목적이 아닙니다.

엑셀 에이전트 모드, 데스크탑서 다 될까요?

엑셀 에이전트 모드, 데스크탑서 다 될까요?