퍼블릭 프리뷰
Microsoft Foundry IQ
Foundry IQ, 무료 토큰 다 쓰면 어떻게 될까요?
“에이전트 검색은 무료”라는 말이 돌고 있습니다. 공식 문서를 그대로 읽으면 절반만 맞는 얘기입니다. 월 5,000만 토큰이 소진된 순간부터 Azure AI Search와 Azure OpenAI에서 동시에 과금이 시작되고, 그 전환을 알리는 알림은 따로 오지 않습니다. Foundry IQ가 실제로 어떻게 작동하는지, 어디서 막히는지, 공식 원문 수치로 정리했습니다.
Foundry IQ가 뭔지, 한 줄로 정리하면
Foundry IQ는 Microsoft가 2025년 11월 공개한 에이전트용 지식 계층입니다. SharePoint, OneLake, Azure Blob Storage, 공개 웹 데이터를 하나의 지식 베이스로 묶어두고, 에이전트가 질문을 던지면 관련 문서를 자동으로 찾아 인용과 함께 돌려주는 구조입니다. Azure AI Search를 기반 인프라로 쓰고, 그 위에 에이전트 검색 엔진을 올린 형태입니다.
기존에 RAG 파이프라인을 직접 만들 때는 팀마다 데이터 연결, 청킹 로직, 임베딩, 권한 처리를 따로 구현해야 했습니다. Foundry IQ는 이 반복 작업을 지식 베이스 하나로 대체합니다. 에이전트를 새로 만들 때 기존 지식 베이스를 그대로 연결하면 되고, 여러 에이전트가 같은 지식 베이스를 공유할 수도 있습니다.
보안 측면에서는 Microsoft Entra ID 기반 사용자 권한이 쿼리 시점에 자동으로 적용됩니다. SharePoint ACL과 Microsoft Purview 민감도 레이블이 인덱싱 과정에서 추출되고, 검색 결과에도 그대로 반영됩니다. 승인된 사용자만 볼 수 있는 문서는 에이전트도 볼 수 없습니다. (출처: Microsoft Learn 공식 문서, 2026.03.17)
💡 공식 발표문과 실제 아키텍처 구성 흐름을 같이 놓고 보니, Foundry IQ는 Azure AI Search의 래퍼가 아니라 그 위에 추론 레이어를 추가한 별도 제품에 가깝습니다. Azure AI Search 없이는 Foundry IQ가 작동하지 않지만, Foundry IQ는 Azure AI Search보다 훨씬 많은 오케스트레이션을 내부에서 처리합니다.
에이전틱 검색이 기존 RAG와 다른 진짜 이유
기존 RAG는 단순합니다. 질문 하나 → 벡터 검색 한 번 → 관련 청크 반환. “우리 보안 정책에서 데이터 보존 기간은?”처럼 단순한 질문에는 잘 작동합니다. 막히는 건 복합 질문입니다. “4분기 로드맵이 보안 사고 이후 어떻게 바뀌었지?”라고 물으면, 단일 쿼리 RAG는 두 주제가 같이 언급된 텍스트 청크를 찾는 것에 그칩니다. 인과 관계나 시간 순서는 잡지 못합니다.
Foundry IQ의 에이전틱 검색 엔진은 다르게 작동합니다. LLM이 대화 전체를 분석해서 복합 질문을 하위 쿼리 여러 개로 분해하고, 이를 동시에 실행한 뒤 결과를 합쳐서 인용과 함께 반환합니다. 철자 오류를 자동으로 교정하고, 동의어 맵을 활용한 패러프레이징도 포함됩니다. (출처: Azure AI Search 공식 문서, Agentic Retrieval Overview)
실제 적용 사례를 보면 차이가 분명합니다. AT&T는 Azure AI Search 기반 멀티 에이전트 프레임워크를 도입해 고객 문제 해결 시간을 33% 줄이고, 평균 처리 시간을 약 10% 단축했습니다. 10만 명 직원에게 71개 AI 솔루션을 확장한 결과입니다. 숫자만 보면 인상적이지만, 이 수치는 Foundry IQ가 아닌 Azure AI Search 에이전틱 검색 기능 전반의 성과입니다. (출처: Microsoft TechCommunity Foundry IQ 공식 블로그, 2025.11.18) 구분이 중요합니다.
캐나다 온타리오 전력 공사(OPG)는 에이전틱 검색으로 40년치 원자력 운영 데이터를 탐색하는 데 활용했습니다. 구조화된 벡터 검색과 강력한 리랭킹 덕분에 신규 직원이 수십 년의 기관 지식에 빠르게 접근할 수 있게 됐다고 공식 발표했습니다. (출처: 동일 블로그 포스트)
쿼리 계획 단계가 추가되면 속도는 어떻게 될까요?
공식 문서는 솔직합니다. “에이전틱 검색은 쿼리 처리에 지연 시간을 추가합니다.” 다만 병렬 실행 구조 덕분에 단일 순차 검색보다는 빠른 경우가 많고, gpt-4o-mini처럼 빠른 모델을 쿼리 계획에 쓰거나 reasoning effort를 낮게 설정하면 지연을 줄일 수 있습니다. 완전히 LLM 처리를 제외하는 것도 가능하지만, 그러면 하위 쿼리 분해 기능이 빠져서 에이전틱 검색의 핵심 이점이 사라집니다.
💡 공식 문서와 실제 아키텍처 구성을 같이 놓고 보면, 에이전틱 검색의 “병렬 실행”은 속도를 빠르게 하는 게 아니라 단일 쿼리의 한계를 깨뜨리기 위한 설계입니다. 속도 최적화는 별도 설정이 필요합니다.
“무료”라는 말이 절반만 맞는 이유
Foundry IQ 관련 글에서 “무료로 시작할 수 있다”는 표현을 자주 봅니다. 공식 문서를 보면 조건이 붙어 있습니다. Azure AI Search Free 티어 서비스를 쓰면 월 5,000만 개의 에이전틱 추론 토큰을 무료로 받습니다. 소진 이후에는 Standard 플랜으로 전환되어 초과분에 대해 토큰당 과금이 시작됩니다. 그리고 공식 문서에 명시되어 있습니다. “초과 시점에 별도 알림을 받지 못합니다.” (출처: Azure AI Search Agentic Retrieval Pricing, learn.microsoft.com)
더 중요한 부분이 있습니다. 에이전틱 검색 비용은 하나가 아닙니다. Azure AI Search 측 과금(에이전틱 추론 토큰)과 Azure OpenAI 측 과금(쿼리 계획 + 답변 합성 토큰)이 별도로 청구됩니다. 하나의 서비스처럼 보이지만, Azure 청구서에는 두 개의 항목으로 찍힙니다.
공식 수치로 직접 계산해보면
공식 문서가 제시하는 추정 시나리오입니다. (출처: Azure AI Search 공식 문서, Agentic Retrieval Overview — Pricing Section)
| 항목 | 수치 | 비용 (추정) |
|---|---|---|
| 에이전틱 검색 2,000회 (서브쿼리 3개 기준) | 1억 5천만 토큰 | $3.30 |
| 쿼리 계획 입력 토큰 (gpt-4o-mini 기준) | 400만 토큰 | $0.60 |
| 쿼리 계획 출력 토큰 | 70만 토큰 | $0.42 |
| 합계 | — | $4.32 |
※ 표 내 수치는 공식 문서 예시 기반 추정입니다. 실제 비용은 인덱스 크기, 청크 수, 모델 선택에 따라 달라집니다.
쿼리 2,000회에 $4.32. 달러 단위로는 적어 보일 수 있지만, 이건 쿼리 계획용 모델로 가장 가벼운 gpt-4o-mini를 쓴 경우입니다. gpt-4o나 gpt-4.1을 쓰면 토큰 단가가 올라가고, 답변 합성(Answer Synthesis) 기능까지 켜면 출력 토큰 비용이 추가됩니다. 중간 규모 기업이 에이전트를 실운영에 올릴 경우, 월간 쿼리가 2,000회를 훌쩍 넘는 건 며칠이면 가능합니다.
⚠️ 쿼리 계획에 사용할 수 있는 모델은 gpt-4o, gpt-4.1, gpt-5 시리즈만 지원합니다. Phi 계열 같은 소형 모델은 쿼리 계획 단계에 쓸 수 없습니다. 최종 답변 생성에는 다른 모델을 쓸 수 있지만, 쿼리 분해 자체는 Azure OpenAI의 고성능 모델에 의존합니다. (출처: Azure AI Search 공식 문서)
Slack, Gmail은 못 봅니다 — Azure 전용의 그림자
Foundry IQ가 연결할 수 있는 데이터 소스를 공식 문서에서 직접 확인하면 이렇습니다. Azure Blob Storage, SharePoint, OneLake, 공개 웹 데이터, MCP(프라이빗 프리뷰). 그게 전부입니다. (출처: azure.microsoft.com/ko-kr/products/ai-foundry/iq, 2026.03.28 접근 기준)
Slack 메시지, Gmail 스레드, GitHub 이슈, Notion 페이지, Zoom 녹화본은 Foundry IQ에서 직접 연결할 수 없습니다. 이 데이터를 쓰려면 SharePoint나 Azure Storage로 먼저 내보내고, 지원 형식으로 변환한 뒤 올려야 합니다. 문제는 그 시점에 이미 데이터가 낡아 있다는 점입니다. 어제 Slack에서 결정된 내용이 오늘 에이전트한테는 보이지 않는 상황이 생깁니다.
이 한계는 Foundry IQ의 설계 철학 자체에서 비롯됩니다. Microsoft 생태계 안에서 완결되는 지식 계층을 만드는 게 목표입니다. SharePoint와 Teams, Outlook 중심으로 데이터를 관리하는 조직에는 강점이 됩니다. 반대로 Slack, Notion, GitHub 같은 외부 SaaS를 주요 업무 도구로 쓰는 팀에는 에이전트가 닿지 못하는 맹점 영역이 생깁니다.
프리뷰 상태라는 것도 실운영에서 변수입니다
Foundry IQ는 2026년 3월 현재 퍼블릭 프리뷰 상태입니다. Microsoft의 공식 문서는 이를 명시적으로 밝히고 있습니다. “서비스 수준 계약(SLA) 없이 제공되며 프로덕션 워크로드에는 권장하지 않습니다.” (출처: Azure AI Search Agentic Retrieval Overview, learn.microsoft.com) 기능 자체가 언제든 변경되거나 제한될 수 있다는 뜻입니다. 프로덕션에 올리기 전에 이 점을 팀 내부에서 명확히 공유해두는 게 필요합니다.
💡 마케팅 자료에는 “80,000개 이상의 엔터프라이즈 기업 개발자 사용”이라는 수치가 나옵니다. 이건 Microsoft Foundry 플랫폼 전체 수치이지, Foundry IQ만의 수치가 아닙니다. (출처: azure.microsoft.com/ko-kr/products/ai-foundry/iq) 수치의 범위를 확인하지 않으면 과대 평가하기 쉽습니다.
Foundry IQ, Work IQ, Fabric IQ — 셋을 같이 써야 완성되는 구조
Microsoft는 Foundry IQ를 단독 제품으로 포지셔닝하지 않습니다. Work IQ, Fabric IQ와 함께 “Microsoft Intelligence Layer” 3종 세트로 묶어서 설명합니다. 셋이 각각 다른 영역을 담당합니다.
| 제품 | 담당 영역 | 주요 데이터 소스 |
|---|---|---|
| Work IQ | 업무 신호 (Microsoft 365) | 문서, 회의, 채팅, 워크플로 |
| Fabric IQ | 비즈니스 데이터 의미 해석 | Power BI, OneLake, 시맨틱 모델 |
| Foundry IQ | 엔터프라이즈 지식 (비정형) | SharePoint, Blob, OneLake, 웹 |
출처: learn.microsoft.com/ko-kr/azure/foundry/agents/concepts/what-is-foundry-iq
실무에서 중요한 포인트는 이겁니다. 비정형 문서는 Foundry IQ가 처리하고, Power BI 데이터는 Fabric IQ, 조직 운영 방식과 협업 신호는 Work IQ가 맡습니다. 에이전트에게 “이번 분기 매출 현황을 보안 사고 보고서와 함께 요약해줘”라고 물으면, 이론적으로는 셋이 조합돼야 완전한 답이 나옵니다. 하나만 연결한 상태로 복합 질문을 기대하면 답의 절반이 빠집니다.
세 가지가 독립 실행형으로도 작동하지만, 가장 풍부한 컨텍스트는 세 IQ를 함께 구성했을 때 나옵니다. 그리고 셋을 다 켜면 각각 별도 과금 구조를 갖고 있어서 비용 추정이 복잡해집니다. Work IQ는 Microsoft 365 Copilot 라이선스에 묶여 있고, Fabric IQ는 Microsoft Fabric 구독이 필요합니다. Foundry IQ만 써도 Azure AI Search + Azure OpenAI 이중 과금이고, 셋을 다 쓰면 청구 항목이 그만큼 늘어납니다.
써야 할 때와 쓰지 말아야 할 때
Foundry IQ가 강점을 발휘하는 조건은 명확합니다. 조직의 지식이 이미 SharePoint, OneDrive, Azure Blob에 집중되어 있고, 사용자 권한을 에이전트까지 그대로 이어받아야 하는 경우입니다. Entra ID로 관리되는 문서 접근 권한이 검색 결과에까지 자동 적용되는 건 직접 RAG를 구축할 때 가장 구현하기 까다로운 부분입니다. Foundry IQ는 이걸 기본 제공합니다.
반대로, 지식이 여러 SaaS에 흩어져 있고 실시간 동기화가 필요한 경우라면 Foundry IQ 단독으로는 한계가 있습니다. 이 경우 Foundry IQ를 직접 쓰는 것보다 Azure Data Factory 같은 데이터 파이프라인을 통해 외부 데이터를 먼저 Azure로 가져오는 구조를 함께 설계해야 합니다. 초기 설정 비용이 상당히 올라갑니다.
Azure를 처음 쓰는 팀에게도 진입 장벽이 있습니다. Foundry IQ를 시작하려면 Azure AI Search 리소스 프로비저닝, 에이전트 서비스 설정, Entra ID 인증 구성이 필요합니다. Azure에 익숙하지 않으면 개념 증명(PoC) 단계만 해도 몇 주가 걸릴 수 있습니다. 공식 문서에서는 Foundry 포털에서 바로 시작할 수 있다고 안내하지만, 프로덕션 수준의 보안과 거버넌스 설정까지 포함하면 이야기가 달라집니다.
비용을 줄이는 방법도 공식 문서에 있습니다
공식 문서가 직접 제시하는 비용 절감 팁입니다. 지식 소스 수를 줄여 팬아웃과 토큰량을 낮추기, reasoning effort를 low로 설정해 LLM 처리 최소화하기, 인덱스 콘텐츠를 정제된 요약이나 테이블로 구성해 더 적은 소스에서 관련 정보를 찾을 수 있도록 하기. 결국 에이전틱 검색의 성능과 비용 사이에는 트레이드오프가 있고, 그 균형점은 직접 실험해서 찾아야 합니다. (출처: Azure AI Search 공식 문서 — Tips for Controlling Costs)
💡 에이전틱 검색에서 reasoning effort를 낮추면 비용은 줄지만 복합 질문 처리 품질도 낮아집니다. 이걸 기본값(중간 수준)으로 놔두고 운영하다가 청구서가 예상보다 높게 나오는 사례가 실제 개발자 커뮤니티에서 보고되고 있습니다. 운영 전에 reasoning effort 설정을 확인해두는 게 좋습니다.
Q&A — 자주 나오는 질문 5가지
마치며
Foundry IQ는 Microsoft 생태계 안에서 에이전트를 만드는 팀에게 실질적인 생산성 향상을 줄 수 있는 도구입니다. 권한 관리, 다중 소스 검색, 인용 제공, 지식 베이스 재사용 — 직접 구현하면 몇 주 걸릴 것들을 포털에서 설정으로 처리할 수 있습니다.
다만 “무료로 시작할 수 있다”는 말은 맥락이 필요합니다. 5,000만 토큰은 PoC에서 써보기에는 충분하지만, 팀 단위 운영에 올리면 금방 소진됩니다. 소진 이후에는 Azure AI Search와 Azure OpenAI 두 군데서 동시에 과금이 시작되고, 그 시점에 알림이 오지 않습니다.
퍼블릭 프리뷰 상태라는 점도 실운영 팀이 고려해야 할 변수입니다. SLA가 없는 기능을 고객 대면 서비스에 올리는 결정은 팀 안에서 명확히 공유하고 들어가야 합니다. 기술적으로 훌륭한 방향으로 가고 있는 건 맞습니다. 단지 지금 이 시점에서 어느 정도 완성된 제품인지는 숫자와 조건을 직접 확인해야 알 수 있습니다.
본 포스팅 참고 자료
- Microsoft Learn — What is Foundry IQ? learn.microsoft.com
- Microsoft TechCommunity — Foundry IQ: Unlocking Ubiquitous Knowledge for Agents techcommunity.microsoft.com
- Azure AI Search — Agentic Retrieval Overview (Pricing & Availability) learn.microsoft.com
- Microsoft Azure — Foundry IQ 공식 제품 페이지 azure.microsoft.com
- Microsoft Learn — Microsoft Foundry 2026년 3월 업데이트 learn.microsoft.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Microsoft Foundry IQ는 2026년 3월 기준 퍼블릭 프리뷰 상태이며, 정식 출시 시 가격·기능·지원 범위가 달라질 수 있습니다. 본 포스팅에 포함된 비용 수치는 공식 문서 기반 추정이며 실제 청구 금액과 다를 수 있습니다.











댓글 남기기