AgentCore Runtime
Amazon Bedrock 상태 유지 런타임, 공식 문서로 확인한 5가지 실제 차이
AI 에이전트를 만들다가 “왜 2단계에서 1단계 결과를 잊어버리지?”라는 벽에 부딪힌 적 있으세요? 그 문제가 이제 구조적으로 해결됩니다. 2026년 2월 27일, OpenAI와 Amazon이 공동 발표한 Bedrock용 상태 유지 런타임(Stateful Runtime Environment)은 단순한 기능 추가가 아닙니다. AI 에이전트를 프로덕션에 올리는 방식 자체가 달라집니다.
5단계 작업 응답속도 단축
상태 관리 보일러플레이트 제거
I/O 대기 시간 과금 제외
상태 유지 런타임이 생긴 배경 — 실제로 무슨 문제였나
Amazon Bedrock 상태 유지 런타임은 기존 Lambda 기반 Bedrock 에이전트의 구조적 결함을 해결하기 위해 등장했습니다. 기존 구조에서는 에이전트가 5단계짜리 작업을 수행할 때 각 단계가 독립된 Lambda 함수로 실행됐습니다. 즉, 1단계에서 S3 파일을 찾아도 2단계에서는 그 정보가 사라집니다.
이 문제를 우회하려면 개발자가 DynamoDB에 중간 상태를 직접 저장하는 코드를 작성해야 했습니다. 실제 현장에서 확인된 수치를 보면, 에이전트 Lambda 코드 287줄 중 115줄이 에이전트 본래 로직이 아닌 상태 저장·복원 코드였습니다. 비즈니스 로직보다 인프라 코드가 더 많은 구조였던 거죠.
2026년 2월 27일, OpenAI와 Amazon이 공동으로 발표한 Stateful Runtime Environment는 에이전트가 작업 중간 상태를 자동으로 유지하도록 인프라 레벨에서 처리합니다. 개발자가 상태 관리 코드를 직접 짜지 않아도 됩니다. (출처: OpenAI 공식 발표, 2026.02.27)
💡 공식 발표문과 실제 개발 현장 코드를 같이 놓고 보니, 이 기능이 편의 기능이 아니라 아키텍처 문제 해소에 가깝다는 게 보였습니다.
코드 40%가 사라진다는 게 어떤 의미인가
AWS 공식 기술 블로그가 인용한 실제 마이그레이션 사례를 보면 숫자가 상당히 구체적입니다. Lambda 기반 에이전트에서 Stateful Runtime으로 전환했을 때, 상태 관리 코드 115줄이 0줄이 됩니다. DynamoDB 테이블 자체를 삭제해도 됩니다. (출처: AWS 기술 블로그, 2026.02.27)
응답 속도 변화도 직접 측정된 수치가 있습니다.
| 항목 | Lambda 기반 | Stateful Runtime | 개선율 |
|---|---|---|---|
| 3단계 작업 완료 시간 | 8.3초 | 5.1초 | -38% |
| 5단계 작업 완료 시간 | 14.7초 | 7.8초 | -47% |
| 상태 저장/복원 오버헤드 | 매 스텝 0.3~0.8초 | 0초 | 완전 제거 |
| 콜드 스타트 빈도 | 10회 중 3~4회 | 거의 없음 | 대폭 감소 |
※ 출처: lagomstudios.co.kr 실측 데이터, 2026.02.27 / 문서 검색 에이전트 기준
5단계 작업에서 47% 빨라진 것은 단순히 코드가 줄어서가 아닙니다. 콜드 스타트가 사라지고 각 단계 간 데이터 전달 오버헤드가 없어진 결과입니다.
💡 AgentCore Runtime의 콜드 스타트 목표 시간은 공식 문서 기준 200밀리초입니다. 세션이 5분 유휴 상태면 일시 중단되지만, 파일 시스템과 환경 변수는 유지됩니다. (출처: AWS AgentCore 공식 문서, 2026.02.27)
요금이 70% 싸다는 말은 조건이 있습니다
AgentCore Runtime의 요금 구조에서 가장 중요한 포인트는 “I/O 대기 시간을 과금하지 않는다”는 점입니다. AWS 공식 요금 페이지에서 이 내용을 직접 확인할 수 있습니다. 에이전트가 LLM 응답을 기다리거나 API를 호출하면서 기다리는 시간은 CPU 활성 시간이 아니므로 과금 대상에서 빠집니다.
⚠️ 그런데 “70% 절감”은 특정 조건에서의 수치입니다.
AWS 공식 요금 페이지의 설명을 보면 “일반적으로 30~70%의 시간을 I/O 대기에 소비하는 에이전트 워크로드의 비용을 크게 절감할 수 있습니다”라고 명시돼 있습니다. 즉, I/O 비중이 낮은 계산 집약형 에이전트라면 절감 효과가 거의 없을 수 있습니다. (출처: AWS AgentCore 요금 페이지, 2026.03 기준)
실제 계산식을 따라가 보면 이 구조가 더 명확해집니다. AWS 공식 요금 페이지에 나온 예시를 기준으로 하면, RAG 에이전트가 60초 실행 시 I/O 대기 70%를 제외하면 실제 과금 CPU 시간은 18초입니다.
직접 따라할 수 있는 계산 구조 (AWS 공식 요금 기준)
CPU 비용: 18초(활성) × 1vCPU × (0.0895 USD/3600) = 약 0.000448 USD
메모리 비용: 10초 × 1GB × (0.00945 USD/3600) + … = 약 0.000276 USD
합계: 호출 1회당 약 0.000724 USD → 1만 회 호출 시 약 7.24 USD
※ 출처: AWS AgentCore 공식 요금 페이지 (aws.amazon.com/ko/bedrock/agentcore/pricing)
동일한 에이전트를 Lambda로 운영했다면 I/O 대기 시간까지 전부 과금됐을 겁니다. 수치만 따라가도 구조적 차이가 체감됩니다.
OpenAI Frontier와 Azure의 긴장 관계
이 발표를 단순히 AWS와 OpenAI의 협업으로만 보면 절반만 본 겁니다. 이번 계약에서 AWS는 OpenAI Frontier의 독점적인 제3자 클라우드 배포 파트너가 됩니다. Microsoft Azure가 오랫동안 OpenAI의 최우선 클라우드 파트너 지위를 누려온 상황에서 의미심장한 구도 변화입니다. (출처: AWS 공식 주간 소식, 2026.03.04)
실제로 Microsoft가 법적 대응을 검토하고 있다는 보도가 2026년 3월 19일 나왔습니다. 아마존과 오픈AI 간 약 500억 달러(약 74조 5000억 원) 규모의 클라우드 계약을 둘러싼 분쟁입니다. Microsoft는 OpenAI에 130억 달러 이상을 투자했고 Azure를 통한 독점적 관계를 맺고 있었기 때문에 이 계약에 반발하는 구조입니다. (출처: Daum 뉴스, 2026.03.19)
💡 투자 규모를 나열하면 단순 뉴스처럼 보이지만, OpenAI가 8년간 1,000억 달러 규모의 AWS 사용을 약속하고 약 2GW 규모의 Trainium 용량을 쓰기로 한 것은 클라우드 선택의 문제가 아닙니다. 에너지·칩·공급망 차원의 경쟁으로 무게중심이 이동한 신호입니다.
국내 기업 입장에서 보면, 이제 AI 에이전트 인프라 선택은 단순히 어떤 모델을 쓰느냐가 아니라 어떤 클라우드와 어떤 계약 구조로 가느냐의 문제가 됩니다. 이 계약이 한국 AWS 리전 서비스 확대로 이어질지는 아직 공식 답변이 나오지 않은 부분입니다.
LangGraph·Assistants API와 무엇이 다른가
에이전트 상태 관리 영역에서 비교 대상은 셋입니다. LangGraph, OpenAI Assistants API, 그리고 이번 Amazon Bedrock Stateful Runtime입니다. 각자의 강점이 실제로 다릅니다.
| 항목 | Bedrock Stateful | LangGraph | OpenAI Assistants |
|---|---|---|---|
| 상태 관리 | 자동 | 수동 (유연) | 자동 |
| AWS 서비스 연동 | 네이티브 | 별도 구현 | 별도 구현 |
| 러닝 커브 | 중간 | 높음 | 낮음 |
| 커스터마이징 | 중간 | 높음 | 낮음 |
| 비용 구조 | AWS 종량제 | 셀프호스팅 | 토큰 기반 |
| 최대 실행 시간 | 8시간 | 제한 없음(셀프) | 스레드 유지 |
※ Bedrock AgentCore Runtime의 최대 세션 지속 시간 8시간은 공식 문서에 명시된 수치입니다. (출처: AWS AgentCore 공식 문서)
결론부터 말씀드리면, AWS 인프라 위에서 이미 운영 중인 시스템이라면 Bedrock Stateful Runtime이 가장 자연스럽습니다. 처음 시작한다면 OpenAI Assistants API가 편하고, 복잡한 워크플로우를 세밀하게 제어해야 한다면 LangGraph가 맞습니다. 세 가지가 동시에 강점인 선택지는 없습니다.
지금 당장 써야 하는가 — 직접 확인한 한계
좋은 기능이라도 지금 프로덕션에 바로 올리기엔 점검할 항목이 있습니다. 실제 사용 후기에서 발견된 세 가지 한계입니다.
① 일부 기능이 특정 리전에서만 동작합니다
AgentCore Runtime의 일부 기능은 특정 AWS 리전에서만 지원됩니다. 2026년 3월 기준, 한국 서울 리전에서 전체 기능이 지원되는지 여부는 AWS 공식 리전 서비스 목록에서 별도 확인이 필요합니다. 공식 문서에서 별도 이유를 밝히지 않은 부분입니다.
② 상태가 자동 관리되면 디버깅이 오히려 어려워집니다
기존 Lambda 기반에서는 DynamoDB를 직접 열어 중간 상태를 확인할 수 있었습니다. Stateful Runtime은 상태가 내부에서 자동으로 관리되기 때문에 문제가 생겼을 때 CloudWatch 로그를 파야 합니다. 디버깅 도구가 아직 성숙 단계가 아닙니다.
③ GA 이후 상태 저장 비용 구조는 아직 확정되지 않았습니다
현재 프리뷰 기간에는 상태 유지 자체에 대한 추가 과금이 별도로 명시돼 있지 않습니다. GA(정식 출시) 이후 상태 저장 시간이나 메모리 사용량에 따라 요금이 추가될 가능성이 있으며, 이 부분은 아직 공개되지 않은 부분입니다. 대규모 프로덕션 전환 전에 요금 구조 확정 여부를 먼저 확인하는 게 좋습니다.
💡 토큰 비용 절감 각도도 짚어볼 만합니다. 기존 방식에서 10턴 대화 후 프롬프트 토큰이 12,000개까지 올라간 경우가 있었는데, Stateful Runtime에서는 3,200개 수준으로 유지됐습니다. 에이전트 10개 운영 기준으로 월 300달러 수준의 토큰 비용 절감이 가능하다는 수치가 실사용에서 나왔습니다. 단, 이 수치는 특정 사용 패턴 기준이므로 직접 검증이 필요합니다.
Q&A
마치며
Amazon Bedrock 상태 유지 런타임을 공식 문서와 실측 데이터 기준으로 뜯어봤습니다. 솔직히 말하면 “AI 에이전트를 만드는 게 이렇게 힘들었나?”라는 질문의 답이 이 기능에 상당 부분 담겨 있습니다.
가장 인상적인 포인트는 두 가지였습니다. 하나는 상태 관리 코드 40%가 구조적으로 사라진다는 점, 다른 하나는 I/O 대기 시간 과금을 제외하는 방식이 단순한 할인이 아니라 에이전트 워크로드 특성을 반영한 설계라는 점입니다.
다만 프로덕션 전환은 GA 이후 요금 구조 확정을 확인하고 리전 지원 범위를 체크한 뒤에 결정하는 게 좋습니다. 지금 당장 테스트는 해볼 만합니다. 단, 대규모 투입은 조금 더 지켜보는 게 안전합니다.
이 계약의 더 큰 그림은 AI 에이전트 인프라 경쟁이 모델 성능 비교를 넘어서 클라우드 공급망과 에너지 인프라 싸움으로 확장됐다는 겁니다. 개발자 입장에서는 “좋은 모델”보다 “지속 가능한 운영 구조”를 먼저 설계해야 하는 시대가 됐습니다.
📚 본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Amazon Bedrock AgentCore Runtime은 지속적으로 업데이트되는 서비스이며, 요금 및 리전 지원 범위는 AWS 공식 페이지에서 최신 정보를 확인하세요. 본 포스팅의 수치는 2026.02.27 기준 공식 문서 및 공개 실측 데이터를 근거로 작성됐습니다.











댓글 남기기