2026 Complete Guide

AI Agent
완벽 가이드

단순 LLM 호출부터 멀티 에이전트 시스템까지
7단계로 이해하는 AI Agent의 모든 것

7 Agent Levels
10+ 핵심 논문
6 주요 프레임워크

AI Agent란 무엇인가?

Lilian Weng(OpenAI)의 정의에 따르면, AI Agent는 네 가지 핵심 요소의 조합입니다

Agent = LLM + Memory + Planning + Tools

Source: Lilian Weng, "LLM Powered Autonomous Agents" (June 2023)

LLM (두뇌)

추론과 의사결정의 핵심 엔진. 자연어를 이해하고, 계획을 세우고, 도구 사용을 결정합니다.

Core Engine

Memory (기억)

단기 기억(컨텍스트 윈도우)과 장기 기억(벡터 DB). 경험을 축적하고 과거를 참조합니다.

State Management

Planning (계획)

작업 분해(Task Decomposition)와 자기 반성(Reflection). 복잡한 목표를 실행 가능한 단계로 쪼갭니다.

Strategy

Tools (도구)

외부 API, 검색 엔진, 코드 실행기 등. LLM의 능력을 실제 세계로 확장합니다.

External Actions

Workflow vs Agent: 핵심 구분

Anthropic의 "Building Effective Agents"(2024)에서는 Workflow와 Agent를 명확히 구분합니다

Workflow

Deterministic
  • 실행 흐름이 코드로 미리 정의
  • 같은 입력 = 같은 경로
  • 예측 가능하고 디버깅이 쉬움
  • 대부분의 비즈니스 문제에 적합
  • 비용이 예측 가능
예시: 문서 번역 파이프라인, 이메일 분류 시스템
vs

Agent

Dynamic
  • 실행 흐름을 LLM이 동적으로 결정
  • 같은 입력이라도 다른 경로 가능
  • 관찰(Observability) 도구 필요
  • Open-ended 문제에 강함
  • 비용이 가변적
예시: 코드 디버깅 에이전트, 리서치 에이전트

Agent 성숙도 7단계

단순 LLM 호출부터 멀티 에이전트 시스템까지, 각 레벨의 구조와 특징을 살펴봅니다

🧩
함께 보기
어떤 패턴을 내 상황에 써야 할지 선택이 고민이라면 — 패턴별 실전 예시·비용/레이턴시 비교·조합 레시피가 담긴 Agentic AI 패턴 가이드를 보세요.
패턴 가이드 →
Simple Autonomous Multi-Agent
L0

Simple LLM Call

No Tools No Memory Single Turn
자율성

가장 기본적인 형태입니다. 프롬프트를 넣으면 응답이 나오는 단순 호출로, LLM의 학습된 지식만으로 답변합니다. 외부 도구 접근이 없어 할루시네이션 리스크가 가장 높습니다.

U
User
Prompt
L
LLM
Response
R
Output

사용 예시

  • "이메일 초안 써줘"
  • "이 코드 리뷰해줘"
  • "마케팅 카피 만들어줘"

한계

  • 최신 정보 접근 불가
  • 사내 데이터 참조 불가
  • 정보를 지어낼 수 있음

관련 기술

  • Chain-of-Thought (Wei et al., 2022)
  • Zero-shot / Few-shot Prompting
  • 기본 ChatGPT / Claude 호출
L1

Augmented LLM (Tool Use)

Function Calling RAG Single Cycle
자율성

LLM이 필요할 때 외부 도구를 한 번 호출할 수 있습니다. 도구를 쓸지 말지를 LLM이 판단하고, 결과를 받아 최종 응답을 생성합니다. 하지만 한 번의 사이클로 끝나며, 결과가 부족해도 재시도하지 않습니다.

U
User
Query
L
LLM
Tool Call
API / DB / Search
Response
R
Output

도구 유형

  • 검색: RAG, 웹 검색
  • API: 날씨, 주가, DB 쿼리
  • 실행: 코드 인터프리터, 계산기

사용 예시

  • "오늘 서울 날씨 알려줘" → weather API
  • "Q3 매출 데이터 찾아줘" → DB 쿼리
  • Naive RAG: 벡터 검색 → 답변 생성

관련 기술

  • Toolformer (Schick et al., 2023)
  • MRKL Systems (Karpas et al., 2022)
  • Function Calling / Structured Output
L2

Chained / Sequential Agent

Pipeline Deterministic Multi-Step
자율성

여러 단계를 미리 정의된 순서대로 실행합니다. 앞 단계의 출력이 뒷 단계의 입력이 됩니다. Gate(검증 단계)를 넣어 품질을 체크할 수 있지만, 전체 흐름은 코드로 고정되어 있습니다.

1
분석
2
처리
G
검증
3
출력
문서 번역 파이프라인
원문 분석 초벌 번역 용어 검증 최종 다듬기
코드 생성 파이프라인
요구사항 코드 생성 린트/테스트 리뷰/수정

특징

  • 실행 순서가 코드로 고정 (deterministic)
  • 각 단계에서 LLM이 동작하지만 전체 흐름은 LLM이 결정하지 않음
  • Latency = 각 단계의 합산

한계

  • 분기(branching)가 없음
  • 간단한 요청도 전체 파이프라인 통과 필요
  • 한 단계 실패 시 전체 중단
L3

Router / Branching Agent

Dynamic Routing Classifier Parallel
자율성

입력을 분석해서 적절한 경로로 분기합니다. LLM이 분류기(classifier) 역할을 수행하며, 각 브랜치는 독립적인 워크플로우입니다. 리소스 효율적이고 병렬 실행도 가능합니다.

U
Input
R
Router
Simple 직접 답변
Data 검색 파이프라인
Code 코드 생성
고객 지원 시스템
고객 메시지
"환불 요청" → 환불 처리 워크플로우
"기술 문의" → 기술 지원 워크플로우
"일반 문의" → FAQ 기반 응답
L4

ReAct / Loop Agent

True Agent Self-Correction Autonomous Loop
자율성
여기서부터 진정한 Agent입니다

LLM이 루프를 돌면서 스스로 판단하고, 도구를 선택하고, 결과를 평가하고, 필요하면 다시 시도합니다. ReAct(Reasoning + Acting) 패턴이 핵심이며, 종료 조건도 LLM이 판단합니다.

반복
T
Thought

상황 분석 & 판단

A
Action

도구 선택 & 실행

O
Observe

결과 확인 & 평가

!
Answer

ReAct 실행 예시: 리서치 에이전트

Thought
사용자가 2024년 한국 GDP를 묻고 있다. 최신 데이터니까 검색이 필요하다.
Action
web_search("2024 한국 GDP")
Observe
검색 결과가 2023년 데이터뿐이다. 더 최신 쿼리가 필요.
Thought
쿼리를 변경해서 재검색하자.
Action
web_search("South Korea GDP 2024 IMF estimate")
Observe
IMF 기준 1.7조 달러라는 결과 확인. 신뢰할 만한 출처.
Answer
2024년 한국 GDP는 IMF 추정 기준 약 1.7조 달러입니다...

핵심 특징

  • LLM이 실행 흐름을 제어
  • 자기 수정(self-correction) 가능
  • 종료 조건을 LLM이 판단
  • max_iterations 설정 필수

관련 논문

  • ReAct (Yao et al., 2022) - ICLR 2023
  • Reflexion (Shinn et al., 2023)
  • Tree of Thoughts (Yao et al., 2023)
L5

Planning Agent

Task Decomposition Adaptive Replanning Reflection
자율성

실행 전에 먼저 전체 계획을 세우고, 계획에 따라 단계별로 실행하며, 상황에 따라 계획을 동적으로 수정합니다. 장기 목표(long-horizon task) 처리가 가능합니다.

P
Plan

작업 분해

Task 1 Task 2 Task 3 Task 4
E
Execute

단계별 ReAct 실행

R
Reflect

결과 평가 & 계획 수정

Re-plan
"경쟁사 분석 보고서 만들어줘"
1. 경쟁사 리스트 확정
2. 재무 데이터 수집 회사 B 데이터 못 찾음
2'. Re-plan: 대안 소스에서 재검색
2'. 대안 소스에서 수집 완료
3. SWOT 분석
4. 보고서 작성
L6

Multi-Agent System

Collaboration Specialization Distributed
자율성

여러 에이전트가 각자의 역할, 도구, 프롬프트를 가지고 협업합니다. Orchestrator가 작업을 분배하고 결과를 통합하며, 각 에이전트가 독립된 컨텍스트를 가져 컨텍스트 윈도우 한계를 완화합니다.

O
Orchestrator
R
Researcher
Search, Fetch
C
Coder
IDE, Terminal
Q
Reviewer
Lint, Test
W
Writer
Docs, Format
Orchestrator-Worker

중앙 관리자가 작업을 분배하고 결과를 통합. 가장 일반적인 패턴.

Claude Code의 sub-agents
Evaluator-Optimizer

Generator가 생성, Evaluator가 평가 후 피드백. 반복적 개선.

코드 리뷰 자동화
Debate / Adversarial

Agent A가 주장, Agent B가 반론. Moderator가 최종 판정.

의사결정 지원 시스템

단계별 비교 요약

레벨 자율성 도구 사용 흐름 결정 대표 기술
L0 없음 없음 코드 ChatGPT 기본 호출
L1 낮음 단일 턴 코드 RAG, Function Calling
L2 낮음 순차 코드 LangChain Chains
L3 중간 분기 코드+LLM Semantic Router
L4 높음 루프 LLM ReAct, Claude Tool Use
L5 높음 계획+루프 LLM Plan-and-Execute, ADK
L6 매우 높음 분산 다수 LLM CrewAI, AutoGen

핵심 아키텍처 개념

에이전트 시스템의 내부를 구성하는 핵심 개념들

Agent Memory 시스템

Core Component

인간의 기억 체계에서 영감을 받은 에이전트 메모리 시스템은 세 가지 유형으로 나뉩니다.

S

Short-term Memory

컨텍스트 윈도우 내의 작업 기억. 현재 대화와 즉시 필요한 정보를 유지합니다.

구현: Context Window, Working Memory
L

Long-term Memory

세션을 넘어 지속되는 기억. 사실, 정의, 규칙 등 구조화된 지식을 저장합니다.

구현: Vector DB, Knowledge Graph
E

Episodic Memory

과거 경험과 에피소드를 기록. 유사한 상황에서 과거 경험을 참조합니다.

구현: Vector DB + Semantic Retrieval
Source: Park et al., "Generative Agents" (2023) | IBM, "AI Agent Memory" (2025)

Agentic RAG vs Traditional RAG

Evolution

Traditional RAG

Query
Vector Search
Retrieve Docs
Generate Answer

단일 패스. 검색 결과가 부족해도 재시도 없음. 도서관에서 책 한 권 빌리는 것과 같음.

vs

Agentic RAG

Plan
Retrieve
Evaluate
↓ / ↺
Re-retrieve / Tool Use
Synthesize

반복적 검색, 평가, 재검색. 연구 조교가 여러 자료를 찾아 교차 검증하는 것과 같음.

Guardrails 아키텍처

Safety

가드레일은 계층적 방어(Layered Defense) 원칙으로 설계됩니다. 하나의 가드레일로 모든 것을 잡을 수 없습니다.

Input Guardrails
PII 감지 Prompt Injection 방어 유해성 필터링
Agent Core (LLM + Tools)
Output Guardrails
할루시네이션 탐지 콘텐츠 검수 PII 제거
Tool Guardrails
실행 전 검증 권한 확인 Human-in-the-Loop

비용 최적화 전략

Production

에이전트 루프는 단일 호출 대비 10~100배 더 많은 토큰을 소비할 수 있습니다. 주요 최적화 전략:

Prompt Caching 60-80% 절감

캐시된 토큰은 75% 저렴. 시스템 프롬프트, 도구 스키마 재사용

Multi-Model Routing 30-60% 절감

단순 작업은 저렴한 모델, 복잡한 추론만 고급 모델 사용

Batch Processing ~50% 절감

비동기 배치 처리로 할인 적용 (OpenAI, Google, Mistral)

Prompt Engineering 15-40% 절감

간결한 프롬프트, JSON 구조화 출력, 사용하지 않는 도구 제거

에이전트 통신 프로토콜

에이전트 생태계를 연결하는 두 가지 핵심 프로토콜

Model Context Protocol

by Anthropic (Nov 2024)
Vertical Agent ↔ Tools & Data

에이전트가 외부 도구와 데이터에 접근하는 방법을 표준화합니다. N x M 통합 문제를 M + N으로 줄입니다.

Tools LLM이 호출할 수 있는 함수
Resources 접근할 수 있는 데이터 소스
Prompts 최적 사용을 위한 템플릿
JSON-RPC 2.0 | stdio / HTTP+SSE

Agent-to-Agent Protocol

by Google (Apr 2025)
Horizontal Agent ↔ Agent

에이전트 간 작업을 위임하고 결과를 교환하는 방법을 표준화합니다. Agent Card로 능력을 광고합니다.

Agent Cards 능력 광고 JSON 문서
Tasks 작업 단위 & 라이프사이클
Messages 컨텍스트, 결과, 아티팩트 교환
HTTP + JSON | SSE Streaming | Apache 2.0
MCP Agent ↔ Tools
Complementary
A2A Agent ↔ Agent

두 프로토콜은 경쟁이 아닌 상호 보완 관계입니다. 2025년 12월 Linux Foundation의 AAIF(Agentic AI Foundation)에서 OpenAI, Anthropic, Google, Microsoft, AWS가 공동 거버넌스에 합류했습니다.

실무 가이드

에이전트를 성공적으로 구축하고 운영하기 위한 실전 지침

주요 프레임워크 비교

LangGraph

Graph-based

그래프 기반 워크플로우. 노드가 액션, 엣지가 흐름을 정의. 중앙집중식 상태 관리.

Durable Execution Human-in-the-Loop 조건부 분기
적합: 복잡한 워크플로우가 필요한 프로덕션 시스템

CrewAI

Role-based

역할 기반 멀티 에이전트. 각 에이전트에게 Role, Goal, Backstory를 부여.

Hierarchical 역할 전문화 작업 위임
적합: 팀 시뮬레이션, 다양한 관점이 필요한 작업

AutoGen

Event-driven

비동기 이벤트 기반 아키텍처. Actor 모델 기반 메시지 교환.

Cross-language 분산 네트워크 OpenTelemetry
적합: 엔터프라이즈급, 분산 에이전트 시스템

Google ADK

Code-first

코드 우선 개발. Runner 중심 설계, 이벤트 스트리밍.

Model-agnostic Built-in Eval Vertex AI 배포
적합: Google Cloud 환경, 스트리밍이 중요한 앱

OpenAI Agents SDK

Minimal

의도적으로 미니멀한 Python 네이티브 접근. 세 가지 원시 타입.

Handoffs Guardrails Built-in Tracing
적합: 빠른 프로토타이핑, 단순한 에이전트 시스템

Claude Code

Terminal Agent

단일 스레드 마스터 루프 + sub-agent 병렬 실행. ~40개 도구, 권한 게이트.

1M Context Permission Gate Sub-agents
적합: 코드베이스 작업, 복잡한 멀티파일 변경

에이전트 구축 시 흔한 실수 Top 10

88%의 AI 에이전트 프로젝트가 프로덕션 전에 실패합니다. 주요 원인:

01
과도한 엔지니어링

단순 LLM + 프롬프팅으로 충분한데 복잡한 멀티 에이전트 프레임워크를 도입

02
데이터 품질 무시

불완전한 데이터 파이프라인 위에 에이전트를 구축

03
평가 프레임워크 부재

AI 팀의 15%만이 포괄적 평가를 수행

04
관찰 도구 누락

프로덕션 에이전트의 5%만 성숙한 모니터링 보유

05
RPA처럼 취급

"구축-배포-방치" 접근은 실패. 지속적 개선 필요

06
도구 과다 등록

모든 도구 정의가 토큰을 소비. 사용하지 않는 도구 제거 필요

07
Human-in-the-Loop 부재

중요한 결정을 완전 자동화하면 사고 위험 증가

08
비용 관리 실패

에이전트 루프는 단일 호출의 10-100배 토큰 소비 가능

09
부실한 도구 문서화

도구 설명은 UX 디자인만큼 중요 (Anthropic 권고)

10
종료 조건 미설정

exit criteria 없는 자율 에이전트는 무한 루프 가능

주요 통계

88%
에이전트 프로젝트가 프로덕션 전 실패
1,445%
멀티 에이전트 문의 증가율 (Gartner, Q1'24→Q2'25)
85%
개발자가 AI 코딩 도구 사용 (2025)
$2.1M
AI 보안 통제 적용 시 평균 비용 절감
80.9%
SWE-bench Verified 최고 점수 (Claude Opus)
33%
2028년까지 에이전트 AI 포함 예측 (Gartner)

실무 권장 사항

1

Simple First

Anthropic, OpenAI 모두 동일하게 권장: 단순하게 시작하세요. Level 2-3으로 대부분의 문제를 해결할 수 있습니다. Level 4 이상은 정말 복잡한 open-ended 작업에만 필요합니다.

2

Evaluate Early

평가 프레임워크를 먼저 구축하세요. LLM-as-Judge, 자동화된 벤치마크, A/B 테스팅을 조합합니다. 측정할 수 없으면 개선할 수 없습니다.

3

Human-in-the-Loop

중요한 결정에는 항상 인간 승인을 포함하세요. 신뢰가 쌓이면 점진적으로 자율성을 확대합니다. 처음부터 완전 자동화를 목표로 하지 마세요.

4

Observe Everything

LangSmith, Braintrust, 또는 OpenTelemetry로 모든 에이전트 액션을 추적하세요. 프로덕션 에이전트의 62%가 관찰 도구 개선을 최우선 과제로 꼽았습니다.

핵심 논문 & 자료

에이전트 분야의 필수 논문과 자료 모음

Foundational

ReAct: Synergizing Reasoning and Acting

Yao et al. (Princeton, Google) | ICLR 2023

에이전트 루프의 근간. Thought-Action-Observation 패턴을 제안. HotpotQA에서 할루시네이션을 극복하고, ALFWorld에서 34% 절대 성공률 향상.

Level 4 Agent Loop
Foundational

Chain-of-Thought Prompting

Wei et al. (Google) | NeurIPS 2022

단계별 추론 능력의 시작. 540B 모델에서 8개 CoT 예시로 GSM8K SOTA 달성. 100B+ 파라미터에서 발현하는 창발적 능력.

Level 0 Reasoning
Foundational

Toolformer

Schick et al. (Meta AI) | Feb 2023

LLM이 자기 감독 방식으로 도구 사용을 학습. 어떤 API를, 언제, 어떤 인자로 호출할지 스스로 결정.

Level 1 Tool Use
Advanced

Generative Agents: Interactive Simulacra

Park et al. (Stanford) | UIST 2023

25명의 에이전트가 Sims 같은 마을에서 생활. Observation-Reflection-Retrieval 아키텍처로 인간과 유사한 사회적 행동을 시연.

Level 5-6 Memory Social
Advanced

Reflexion

Shinn et al. | NeurIPS 2023

언어적 자기 반성을 통한 학습. 가중치 업데이트 없이 시행착오에서 배움. HumanEval 67%→88% pass@1 달성.

Level 4 Self-Improvement
Advanced

Tree of Thoughts

Yao et al. (Princeton) | NeurIPS 2023

CoT를 일반화한 탐색 기반 추론. BFS/DFS로 사고 트리를 탐색. Game of 24: CoT 4% → ToT 74%.

Level 2-3 Planning
System Design

MRKL Systems

Karpas et al. (AI21 Labs) | May 2022

뉴로-심볼릭 아키텍처의 이론적 기반. 라우터가 입력을 적절한 모듈(LLM, 계산기, DB, API)로 전달.

Level 1-2 Router
System Design

HuggingGPT

Shen et al. | NeurIPS 2023

ChatGPT를 컨트롤러로 사용해 Hugging Face의 전문 모델들을 오케스트레이션. 멀티모달 작업 처리의 선구자.

Level 5 Orchestration
Industry

Building Effective Agents

Schluntz & Zhang (Anthropic) | Dec 2024

실무에서 가장 영향력 있는 가이드. 6가지 조합 가능한 패턴과 "단순하게 시작하라"는 철학.

All Levels Best Practice
Industry

LLM Powered Autonomous Agents

Lilian Weng (OpenAI) | Jun 2023

Agent = LLM + Memory + Planning + Tools. 에이전트 아키텍처의 사실상 표준 레퍼런스.

All Levels Architecture

주요 벤치마크

SWE-bench Verified

실제 GitHub 이슈 해결 능력 평가. 실무 코딩 에이전트의 핵심 지표.

Top: ~80.9%

GAIA

인간에게는 쉽지만 AI에겐 멀티모달 도구 사용이 필요한 작업 평가.

Tool Use + Reasoning

AgentBench

시뮬레이션된 OS 환경에서의 에이전트 작업 수행 능력 평가.

Multi-Environment