AI Agent 완벽 가이드

Overview

AI Agent란 무엇인가?

Lilian Weng(OpenAI)의 정의에 따르면, AI Agent는 네 가지 핵심 요소의 조합입니다

Agent = LLM + Memory + Planning + Tools

Source: Lilian Weng, "LLM Powered Autonomous Agents" (June 2023)

LLM (두뇌)

추론과 의사결정의 핵심 엔진. 자연어를 이해하고, 계획을 세우고, 도구 사용을 결정합니다.

Core Engine

Memory (기억)

단기 기억(컨텍스트 윈도우)과 장기 기억(벡터 DB). 경험을 축적하고 과거를 참조합니다.

State Management

Planning (계획)

작업 분해(Task Decomposition)와 자기 반성(Reflection). 복잡한 목표를 실행 가능한 단계로 쪼갭니다.

Strategy

Tools (도구)

외부 API, 검색 엔진, 코드 실행기 등. LLM의 능력을 실제 세계로 확장합니다.

External Actions

Workflow vs Agent: 핵심 구분

Anthropic의 "Building Effective Agents"(2024)에서는 Workflow와 Agent를 명확히 구분합니다

Workflow

Deterministic

실행 흐름이 코드로 미리 정의됨
같은 입력 = 같은 경로
예측 가능하고 디버깅이 쉬움
대부분의 비즈니스 문제에 적합
비용이 예측 가능

예시: 문서 번역 파이프라인, 이메일 분류 시스템

Agent

Dynamic

실행 흐름을 LLM이 동적으로 결정
같은 입력이라도 다른 경로 가능
관찰(Observability) 도구 필요
Open-ended 문제에 강함
비용이 가변적

예시: 코드 디버깅 에이전트, 리서치 에이전트

Levels 0-6

Agent 성숙도 7단계

단순 LLM 호출부터 멀티 에이전트 시스템까지, 각 레벨의 구조와 특징을 살펴봅니다

🧩

함께 보기

어떤 패턴을 내 상황에 써야 할지 선택이 고민이라면 — 패턴별 실전 예시·비용/레이턴시 비교·조합 레시피가 담긴 Agentic AI 패턴 가이드를 보세요.

패턴 가이드 →

Simple Autonomous Multi-Agent

Simple LLM Call

No Tools No Memory Single Turn

자율성

가장 기본적인 형태입니다. 프롬프트를 넣으면 응답이 나오는 단순 호출로, LLM의 학습된 지식만으로 답변합니다. 외부 도구 접근이 없어 할루시네이션 리스크가 가장 높습니다.

User

Prompt

LLM

Response

Output

사용 예시

"이메일 초안 써줘"
"이 코드 리뷰해줘"
"마케팅 카피 만들어줘"

한계

최신 정보 접근 불가
사내 데이터 참조 불가
정보를 지어낼 수 있음

Augmented LLM (Tool Use)

Function Calling RAG Single Cycle

자율성

LLM이 필요할 때 외부 도구를 한 번 호출할 수 있습니다. 도구를 쓸지 말지를 LLM이 판단하고, 결과를 받아 최종 응답을 생성합니다. 하지만 한 번의 사이클로 끝나며, 결과가 부족해도 재시도하지 않습니다.

User

Query

LLM

Tool Call

API / DB / Search

Response

Output

도구 유형

검색: RAG, 웹 검색
API: 날씨, 주가, DB 쿼리
실행: 코드 인터프리터, 계산기

사용 예시

"오늘 서울 날씨 알려줘" → weather API
"Q3 매출 데이터 찾아줘" → DB 쿼리
Naive RAG: 벡터 검색 → 답변 생성

Chained / Sequential Agent

Pipeline Deterministic Multi-Step

자율성

여러 단계를 미리 정의된 순서대로 실행합니다. 앞 단계의 출력이 뒷 단계의 입력이 됩니다. Gate(검증 단계)를 넣어 품질을 체크할 수 있지만, 전체 흐름은 코드로 고정되어 있습니다.

분석

처리

검증

출력

문서 번역 파이프라인

원문 분석 → 초벌 번역 → 용어 검증 → 최종 다듬기

코드 생성 파이프라인

요구사항 → 코드 생성 → 린트/테스트 → 리뷰/수정

특징

실행 순서가 코드로 고정 (deterministic)
각 단계에서 LLM이 동작하지만 전체 흐름은 LLM이 결정하지 않음
Latency = 각 단계의 합산

한계

분기(branching)가 없음
간단한 요청도 전체 파이프라인 통과 필요
한 단계 실패 시 전체 중단

Router / Branching Agent

Dynamic Routing Classifier Parallel

자율성

입력을 분석해서 적절한 경로로 분기합니다. LLM이 분류기(classifier) 역할을 수행하며, 각 브랜치는 독립적인 워크플로우입니다. 리소스 효율적이고 병렬 실행도 가능합니다.

Input

Router

Simple 직접 답변

Data 검색 파이프라인

Code 코드 생성

고객 지원 시스템

고객 메시지

"환불 요청" → 환불 처리 워크플로우

"기술 문의" → 기술 지원 워크플로우

"일반 문의" → FAQ 기반 응답

ReAct / Loop Agent

True Agent Self-Correction Autonomous Loop

자율성

여기서부터 진정한 Agent입니다

LLM이 루프를 돌면서 스스로 판단하고, 도구를 선택하고, 결과를 평가하고, 필요하면 다시 시도합니다. ReAct(Reasoning + Acting) 패턴이 핵심이며, 종료 조건도 LLM이 판단합니다.

반복

Thought

상황 분석 & 판단

Action

도구 선택 & 실행

Observe

결과 확인 & 평가

Answer

ReAct 실행 예시: 리서치 에이전트

Thought

사용자가 2024년 한국 GDP를 묻고 있다. 최신 데이터니까 검색이 필요하다.

Action

web_search("2024 한국 GDP")

Observe

검색 결과가 2023년 데이터뿐이다. 더 최신 쿼리가 필요.

Thought

쿼리를 변경해서 재검색하자.

Action

web_search("South Korea GDP 2024 IMF estimate")

Observe

IMF 기준 1.7조 달러라는 결과 확인. 신뢰할 만한 출처.

Answer

2024년 한국 GDP는 IMF 추정 기준 약 1.7조 달러입니다...

핵심 특징

LLM이 실행 흐름을 제어
자기 수정(self-correction) 가능
종료 조건을 LLM이 판단
max_iterations 설정 필수

Planning Agent

Task Decomposition Adaptive Replanning Reflection

자율성

실행 전에 먼저 전체 계획을 세우고, 계획에 따라 단계별로 실행하며, 상황에 따라 계획을 동적으로 수정합니다. 장기 목표(long-horizon task) 처리가 가능합니다.

Plan

작업 분해

Task 1 Task 2 Task 3 Task 4

Execute

단계별 ReAct 실행

Reflect

결과 평가 & 계획 수정

Re-plan

"경쟁사 분석 보고서 만들어줘"

✓ 1. 경쟁사 리스트 확정

✗ 2. 재무 데이터 수집 회사 B 데이터 못 찾음

↻ 2'. Re-plan: 대안 소스에서 재검색

✓ 2'. 대안 소스에서 수집 완료

● 3. SWOT 분석

● 4. 보고서 작성

Multi-Agent System

Collaboration Specialization Distributed

자율성

여러 에이전트가 각자의 역할, 도구, 프롬프트를 가지고 협업합니다. Orchestrator가 작업을 분배하고 결과를 통합하며, 각 에이전트가 독립된 컨텍스트를 가져 컨텍스트 윈도우 한계를 완화합니다.

Orchestrator

Researcher

Search, Fetch

Coder

IDE, Terminal

Reviewer

Lint, Test

Writer

Docs, Format

Orchestrator-Worker

중앙 관리자가 작업을 분배하고 결과를 통합. 가장 일반적인 패턴.

Claude Code의 sub-agents

Evaluator-Optimizer

Generator가 생성, Evaluator가 평가 후 피드백. 반복적 개선.

코드 리뷰 자동화

Debate / Adversarial

Agent A가 주장, Agent B가 반론. Moderator가 최종 판정.

의사결정 지원 시스템

단계별 비교 요약

레벨	자율성	도구 사용	흐름 결정	대표 기술
L0	없음	없음	코드	ChatGPT 기본 호출
L1	낮음	단일 턴	코드	RAG, Function Calling
L2	낮음	순차	코드	LangChain Chains
L3	중간	분기	코드+LLM	Semantic Router
L4	높음	루프	LLM	ReAct, Claude Tool Use
L5	높음	계획+루프	LLM	Plan-and-Execute, ADK
L6	매우 높음	분산	다수 LLM	CrewAI, AutoGen

Deep Dive

핵심 아키텍처 개념

에이전트 시스템의 내부를 구성하는 핵심 개념들

Agent Memory 시스템

Core Component

인간의 기억 체계에서 영감을 받은 에이전트 메모리 시스템은 세 가지 유형으로 나뉩니다.

Short-term Memory

컨텍스트 윈도우 내의 작업 기억. 현재 대화와 즉시 필요한 정보를 유지합니다.

구현: Context Window, Working Memory

Long-term Memory

세션을 넘어 지속되는 기억. 사실, 정의, 규칙 등 구조화된 지식을 저장합니다.

구현: Vector DB, Knowledge Graph

Episodic Memory

과거 경험과 에피소드를 기록. 유사한 상황에서 과거 경험을 참조합니다.

구현: Vector DB + Semantic Retrieval

Source: Park et al., "Generative Agents" (2023) | IBM, "AI Agent Memory" (2025)

Agentic RAG vs Traditional RAG

Evolution

Traditional RAG

Query

↓

Vector Search

↓

Retrieve Docs

↓

Generate Answer

단일 패스. 검색 결과가 부족해도 재시도 없음. 도서관에서 책 한 권 빌리는 것과 같음.

Agentic RAG

Plan

↓

Retrieve

↓

Evaluate

↓ / ↺

Re-retrieve / Tool Use

↓

Synthesize

반복적 검색, 평가, 재검색. 연구 조교가 여러 자료를 찾아 교차 검증하는 것과 같음.

Guardrails 아키텍처

Safety

가드레일은 계층적 방어(Layered Defense) 원칙으로 설계됩니다. 하나의 가드레일로 모든 것을 잡을 수 없습니다.

Input Guardrails

PII 감지 Prompt Injection 방어 유해성 필터링

↓

Agent Core (LLM + Tools)

↓

Output Guardrails

할루시네이션 탐지 콘텐츠 검수 PII 제거

Tool Guardrails

실행 전 검증 권한 확인 Human-in-the-Loop

비용 최적화 전략

Production

에이전트 루프는 단일 호출 대비 10~100배 더 많은 토큰을 소비할 수 있습니다. 주요 최적화 전략:

Prompt Caching 60-80% 절감

캐시된 토큰은 75% 저렴. 시스템 프롬프트, 도구 스키마 재사용

Multi-Model Routing 30-60% 절감

단순 작업은 저렴한 모델, 복잡한 추론만 고급 모델 사용

Batch Processing ~50% 절감

비동기 배치 처리로 할인 적용 (OpenAI, Google, Mistral)

Prompt Engineering 15-40% 절감

간결한 프롬프트, JSON 구조화 출력, 사용하지 않는 도구 제거

Protocols

에이전트 통신 프로토콜

에이전트 생태계를 연결하는 두 가지 핵심 프로토콜

MCP

Model Context Protocol

by Anthropic (Nov 2024)

Vertical Agent ↔ Tools & Data

에이전트가 외부 도구와 데이터에 접근하는 방법을 표준화합니다. N x M 통합 문제를 M + N으로 줄입니다.

Tools LLM이 호출할 수 있는 함수

Resources 접근할 수 있는 데이터 소스

Prompts 최적 사용을 위한 템플릿

JSON-RPC 2.0 | stdio / HTTP+SSE

A2A

Agent-to-Agent Protocol

by Google (Apr 2025)

Horizontal Agent ↔ Agent

에이전트 간 작업을 위임하고 결과를 교환하는 방법을 표준화합니다. Agent Card로 능력을 광고합니다.

Agent Cards 능력 광고 JSON 문서

Tasks 작업 단위 & 라이프사이클

Messages 컨텍스트, 결과, 아티팩트 교환

HTTP + JSON | SSE Streaming | Apache 2.0

MCP Agent ↔ Tools

Complementary

A2A Agent ↔ Agent

두 프로토콜은 경쟁이 아닌 상호 보완 관계입니다. 2025년 12월 Linux Foundation의 AAIF(Agentic AI Foundation)에서 OpenAI, Anthropic, Google, Microsoft, AWS가 공동 거버넌스에 합류했습니다.

Practice

실무 가이드

에이전트를 성공적으로 구축하고 운영하기 위한 실전 지침

주요 프레임워크 비교

LangGraph

Graph-based

그래프 기반 워크플로우. 노드가 액션, 엣지가 흐름을 정의. 중앙집중식 상태 관리.

Durable Execution Human-in-the-Loop 조건부 분기

적합: 복잡한 워크플로우가 필요한 프로덕션 시스템

CrewAI

Role-based

역할 기반 멀티 에이전트. 각 에이전트에게 Role, Goal, Backstory를 부여.

Hierarchical 역할 전문화 작업 위임

적합: 팀 시뮬레이션, 다양한 관점이 필요한 작업

AutoGen

Event-driven

비동기 이벤트 기반 아키텍처. Actor 모델 기반 메시지 교환.

Cross-language 분산 네트워크 OpenTelemetry

적합: 엔터프라이즈급, 분산 에이전트 시스템

Google ADK

Code-first

코드 우선 개발. Runner 중심 설계, 이벤트 스트리밍.

Model-agnostic Built-in Eval Vertex AI 배포

적합: Google Cloud 환경, 스트리밍이 중요한 앱

OpenAI Agents SDK

Minimal

의도적으로 미니멀한 Python 네이티브 접근. 세 가지 원시 타입.

Handoffs Guardrails Built-in Tracing

적합: 빠른 프로토타이핑, 단순한 에이전트 시스템

Claude Code

Terminal Agent

단일 스레드 마스터 루프 + sub-agent 병렬 실행. ~40개 도구, 권한 게이트.

1M Context Permission Gate Sub-agents

적합: 코드베이스 작업, 복잡한 멀티파일 변경

에이전트 구축 시 흔한 실수 Top 10

88%의 AI 에이전트 프로젝트가 프로덕션 전에 실패합니다. 주요 원인:

과도한 엔지니어링

단순 LLM + 프롬프팅으로 충분한데 복잡한 멀티 에이전트 프레임워크를 도입

데이터 품질 무시

불완전한 데이터 파이프라인 위에 에이전트를 구축

평가 프레임워크 부재

AI 팀의 15%만이 포괄적 평가를 수행

관찰 도구 누락

프로덕션 에이전트의 5%만 성숙한 모니터링 보유

RPA처럼 취급

"구축-배포-방치" 접근은 실패. 지속적 개선 필요

도구 과다 등록

모든 도구 정의가 토큰을 소비. 사용하지 않는 도구 제거 필요

Human-in-the-Loop 부재

중요한 결정을 완전 자동화하면 사고 위험 증가

비용 관리 실패

에이전트 루프는 단일 호출의 10-100배 토큰 소비 가능

부실한 도구 문서화

도구 설명은 UX 디자인만큼 중요 (Anthropic 권고)

종료 조건 미설정

exit criteria 없는 자율 에이전트는 무한 루프 가능

주요 통계

88%

에이전트 프로젝트가 프로덕션 전 실패

1,445%

멀티 에이전트 문의 증가율 (Gartner, Q1'24→Q2'25)

85%

개발자가 AI 코딩 도구 사용 (2025)

$2.1M

AI 보안 통제 적용 시 평균 비용 절감

80.9%

SWE-bench Verified 최고 점수 (Claude Opus)

33%

2028년까지 에이전트 AI 포함 예측 (Gartner)

실무 권장 사항

Simple First

Anthropic, OpenAI 모두 동일하게 권장: 단순하게 시작하세요. Level 2-3으로 대부분의 문제를 해결할 수 있습니다. Level 4 이상은 정말 복잡한 open-ended 작업에만 필요합니다.

Evaluate Early

평가 프레임워크를 먼저 구축하세요. LLM-as-Judge, 자동화된 벤치마크, A/B 테스팅을 조합합니다. 측정할 수 없으면 개선할 수 없습니다.

Human-in-the-Loop

중요한 결정에는 항상 인간 승인을 포함하세요. 신뢰가 쌓이면 점진적으로 자율성을 확대합니다. 처음부터 완전 자동화를 목표로 하지 마세요.

Observe Everything

LangSmith, Braintrust, 또는 OpenTelemetry로 모든 에이전트 액션을 추적하세요. 프로덕션 에이전트의 62%가 관찰 도구 개선을 최우선 과제로 꼽았습니다.

References

핵심 논문 & 자료

에이전트 분야의 필수 논문과 자료 모음

Foundational

ReAct: Synergizing Reasoning and Acting

Yao et al. (Princeton, Google) | ICLR 2023

에이전트 루프의 근간. Thought-Action-Observation 패턴을 제안. HotpotQA에서 할루시네이션을 극복하고, ALFWorld에서 34% 절대 성공률 향상.

Level 4 Agent Loop

Foundational

Chain-of-Thought Prompting

Wei et al. (Google) | NeurIPS 2022

단계별 추론 능력의 시작. 540B 모델에서 8개 CoT 예시로 GSM8K SOTA 달성. 100B+ 파라미터에서 발현하는 창발적 능력.

Level 0 Reasoning

Foundational

Toolformer

Schick et al. (Meta AI) | Feb 2023

LLM이 자기 감독 방식으로 도구 사용을 학습. 어떤 API를, 언제, 어떤 인자로 호출할지 스스로 결정.

Level 1 Tool Use

Advanced

Generative Agents: Interactive Simulacra

Park et al. (Stanford) | UIST 2023

25명의 에이전트가 Sims 같은 마을에서 생활. Observation-Reflection-Retrieval 아키텍처로 인간과 유사한 사회적 행동을 시연.

Level 5-6 Memory Social

Advanced

Reflexion

Shinn et al. | NeurIPS 2023

언어적 자기 반성을 통한 학습. 가중치 업데이트 없이 시행착오에서 배움. HumanEval 67%→88% pass@1 달성.

Level 4 Self-Improvement

Advanced

Tree of Thoughts

Yao et al. (Princeton) | NeurIPS 2023

CoT를 일반화한 탐색 기반 추론. BFS/DFS로 사고 트리를 탐색. Game of 24: CoT 4% → ToT 74%.

Level 2-3 Planning

System Design

MRKL Systems

Karpas et al. (AI21 Labs) | May 2022

뉴로-심볼릭 아키텍처의 이론적 기반. 라우터가 입력을 적절한 모듈(LLM, 계산기, DB, API)로 전달.

Level 1-2 Router

System Design

HuggingGPT

Shen et al. | NeurIPS 2023

ChatGPT를 컨트롤러로 사용해 Hugging Face의 전문 모델들을 오케스트레이션. 멀티모달 작업 처리의 선구자.

Level 5 Orchestration

Industry

Building Effective Agents

Schluntz & Zhang (Anthropic) | Dec 2024

실무에서 가장 영향력 있는 가이드. 6가지 조합 가능한 패턴과 "단순하게 시작하라"는 철학.

All Levels Best Practice

Industry

LLM Powered Autonomous Agents

Lilian Weng (OpenAI) | Jun 2023

Agent = LLM + Memory + Planning + Tools. 에이전트 아키텍처의 사실상 표준 레퍼런스.

All Levels Architecture

주요 벤치마크

SWE-bench Verified

실제 GitHub 이슈 해결 능력 평가. 실무 코딩 에이전트의 핵심 지표.

Top: ~80.9%

GAIA

인간에게는 쉽지만 AI에겐 멀티모달 도구 사용이 필요한 작업 평가.

Tool Use + Reasoning

AgentBench

시뮬레이션된 OS 환경에서의 에이전트 작업 수행 능력 평가.

Multi-Environment

AI Agent란 무엇인가?

LLM (두뇌)

Memory (기억)

Planning (계획)

Tools (도구)

Workflow vs Agent: 핵심 구분

Workflow

Agent

Agent 성숙도 7단계

Simple LLM Call

사용 예시

한계

관련 기술

Augmented LLM (Tool Use)

도구 유형

사용 예시

관련 기술

Chained / Sequential Agent

문서 번역 파이프라인

코드 생성 파이프라인

특징

한계

Router / Branching Agent

고객 지원 시스템

ReAct / Loop Agent

ReAct 실행 예시: 리서치 에이전트

핵심 특징

관련 논문

Planning Agent

Plan

Execute

Reflect

"경쟁사 분석 보고서 만들어줘"

Multi-Agent System

Orchestrator-Worker

Evaluator-Optimizer

Debate / Adversarial

단계별 비교 요약

핵심 아키텍처 개념

Agent Memory 시스템

Short-term Memory

Long-term Memory

Episodic Memory

Agentic RAG vs Traditional RAG

Traditional RAG

Agentic RAG

Guardrails 아키텍처

비용 최적화 전략

에이전트 통신 프로토콜

Model Context Protocol

Agent-to-Agent Protocol

실무 가이드

주요 프레임워크 비교

LangGraph

CrewAI

AutoGen

Google ADK

OpenAI Agents SDK

Claude Code

에이전트 구축 시 흔한 실수 Top 10

과도한 엔지니어링

데이터 품질 무시

평가 프레임워크 부재

관찰 도구 누락

RPA처럼 취급

도구 과다 등록

Human-in-the-Loop 부재

비용 관리 실패

부실한 도구 문서화

종료 조건 미설정

주요 통계

실무 권장 사항

Simple First

Evaluate Early

Human-in-the-Loop

Observe Everything

핵심 논문 & 자료

ReAct: Synergizing Reasoning and Acting

Chain-of-Thought Prompting

AI Agent
완벽 가이드