단순 LLM 호출부터 멀티 에이전트 시스템까지
7단계로 이해하는 AI Agent의 모든 것
Lilian Weng(OpenAI)의 정의에 따르면, AI Agent는 네 가지 핵심 요소의 조합입니다
Source: Lilian Weng, "LLM Powered Autonomous Agents" (June 2023)
추론과 의사결정의 핵심 엔진. 자연어를 이해하고, 계획을 세우고, 도구 사용을 결정합니다.
단기 기억(컨텍스트 윈도우)과 장기 기억(벡터 DB). 경험을 축적하고 과거를 참조합니다.
작업 분해(Task Decomposition)와 자기 반성(Reflection). 복잡한 목표를 실행 가능한 단계로 쪼갭니다.
외부 API, 검색 엔진, 코드 실행기 등. LLM의 능력을 실제 세계로 확장합니다.
Anthropic의 "Building Effective Agents"(2024)에서는 Workflow와 Agent를 명확히 구분합니다
단순 LLM 호출부터 멀티 에이전트 시스템까지, 각 레벨의 구조와 특징을 살펴봅니다
가장 기본적인 형태입니다. 프롬프트를 넣으면 응답이 나오는 단순 호출로, LLM의 학습된 지식만으로 답변합니다. 외부 도구 접근이 없어 할루시네이션 리스크가 가장 높습니다.
LLM이 필요할 때 외부 도구를 한 번 호출할 수 있습니다. 도구를 쓸지 말지를 LLM이 판단하고, 결과를 받아 최종 응답을 생성합니다. 하지만 한 번의 사이클로 끝나며, 결과가 부족해도 재시도하지 않습니다.
여러 단계를 미리 정의된 순서대로 실행합니다. 앞 단계의 출력이 뒷 단계의 입력이 됩니다. Gate(검증 단계)를 넣어 품질을 체크할 수 있지만, 전체 흐름은 코드로 고정되어 있습니다.
입력을 분석해서 적절한 경로로 분기합니다. LLM이 분류기(classifier) 역할을 수행하며, 각 브랜치는 독립적인 워크플로우입니다. 리소스 효율적이고 병렬 실행도 가능합니다.
LLM이 루프를 돌면서 스스로 판단하고, 도구를 선택하고, 결과를 평가하고, 필요하면 다시 시도합니다. ReAct(Reasoning + Acting) 패턴이 핵심이며, 종료 조건도 LLM이 판단합니다.
상황 분석 & 판단
도구 선택 & 실행
결과 확인 & 평가
web_search("2024 한국 GDP")web_search("South Korea GDP 2024 IMF estimate")실행 전에 먼저 전체 계획을 세우고, 계획에 따라 단계별로 실행하며, 상황에 따라 계획을 동적으로 수정합니다. 장기 목표(long-horizon task) 처리가 가능합니다.
작업 분해
단계별 ReAct 실행
결과 평가 & 계획 수정
여러 에이전트가 각자의 역할, 도구, 프롬프트를 가지고 협업합니다. Orchestrator가 작업을 분배하고 결과를 통합하며, 각 에이전트가 독립된 컨텍스트를 가져 컨텍스트 윈도우 한계를 완화합니다.
중앙 관리자가 작업을 분배하고 결과를 통합. 가장 일반적인 패턴.
Generator가 생성, Evaluator가 평가 후 피드백. 반복적 개선.
Agent A가 주장, Agent B가 반론. Moderator가 최종 판정.
| 레벨 | 자율성 | 도구 사용 | 흐름 결정 | 대표 기술 |
|---|---|---|---|---|
| L0 | 없음 | 없음 | 코드 | ChatGPT 기본 호출 |
| L1 | 낮음 | 단일 턴 | 코드 | RAG, Function Calling |
| L2 | 낮음 | 순차 | 코드 | LangChain Chains |
| L3 | 중간 | 분기 | 코드+LLM | Semantic Router |
| L4 | 높음 | 루프 | LLM | ReAct, Claude Tool Use |
| L5 | 높음 | 계획+루프 | LLM | Plan-and-Execute, ADK |
| L6 | 매우 높음 | 분산 | 다수 LLM | CrewAI, AutoGen |
에이전트 시스템의 내부를 구성하는 핵심 개념들
인간의 기억 체계에서 영감을 받은 에이전트 메모리 시스템은 세 가지 유형으로 나뉩니다.
컨텍스트 윈도우 내의 작업 기억. 현재 대화와 즉시 필요한 정보를 유지합니다.
세션을 넘어 지속되는 기억. 사실, 정의, 규칙 등 구조화된 지식을 저장합니다.
과거 경험과 에피소드를 기록. 유사한 상황에서 과거 경험을 참조합니다.
단일 패스. 검색 결과가 부족해도 재시도 없음. 도서관에서 책 한 권 빌리는 것과 같음.
반복적 검색, 평가, 재검색. 연구 조교가 여러 자료를 찾아 교차 검증하는 것과 같음.
가드레일은 계층적 방어(Layered Defense) 원칙으로 설계됩니다. 하나의 가드레일로 모든 것을 잡을 수 없습니다.
에이전트 루프는 단일 호출 대비 10~100배 더 많은 토큰을 소비할 수 있습니다. 주요 최적화 전략:
캐시된 토큰은 75% 저렴. 시스템 프롬프트, 도구 스키마 재사용
단순 작업은 저렴한 모델, 복잡한 추론만 고급 모델 사용
비동기 배치 처리로 할인 적용 (OpenAI, Google, Mistral)
간결한 프롬프트, JSON 구조화 출력, 사용하지 않는 도구 제거
에이전트 생태계를 연결하는 두 가지 핵심 프로토콜
에이전트가 외부 도구와 데이터에 접근하는 방법을 표준화합니다. N x M 통합 문제를 M + N으로 줄입니다.
에이전트 간 작업을 위임하고 결과를 교환하는 방법을 표준화합니다. Agent Card로 능력을 광고합니다.
두 프로토콜은 경쟁이 아닌 상호 보완 관계입니다. 2025년 12월 Linux Foundation의 AAIF(Agentic AI Foundation)에서 OpenAI, Anthropic, Google, Microsoft, AWS가 공동 거버넌스에 합류했습니다.
에이전트를 성공적으로 구축하고 운영하기 위한 실전 지침
그래프 기반 워크플로우. 노드가 액션, 엣지가 흐름을 정의. 중앙집중식 상태 관리.
역할 기반 멀티 에이전트. 각 에이전트에게 Role, Goal, Backstory를 부여.
비동기 이벤트 기반 아키텍처. Actor 모델 기반 메시지 교환.
코드 우선 개발. Runner 중심 설계, 이벤트 스트리밍.
의도적으로 미니멀한 Python 네이티브 접근. 세 가지 원시 타입.
단일 스레드 마스터 루프 + sub-agent 병렬 실행. ~40개 도구, 권한 게이트.
88%의 AI 에이전트 프로젝트가 프로덕션 전에 실패합니다. 주요 원인:
단순 LLM + 프롬프팅으로 충분한데 복잡한 멀티 에이전트 프레임워크를 도입
불완전한 데이터 파이프라인 위에 에이전트를 구축
AI 팀의 15%만이 포괄적 평가를 수행
프로덕션 에이전트의 5%만 성숙한 모니터링 보유
"구축-배포-방치" 접근은 실패. 지속적 개선 필요
모든 도구 정의가 토큰을 소비. 사용하지 않는 도구 제거 필요
중요한 결정을 완전 자동화하면 사고 위험 증가
에이전트 루프는 단일 호출의 10-100배 토큰 소비 가능
도구 설명은 UX 디자인만큼 중요 (Anthropic 권고)
exit criteria 없는 자율 에이전트는 무한 루프 가능
Anthropic, OpenAI 모두 동일하게 권장: 단순하게 시작하세요. Level 2-3으로 대부분의 문제를 해결할 수 있습니다. Level 4 이상은 정말 복잡한 open-ended 작업에만 필요합니다.
평가 프레임워크를 먼저 구축하세요. LLM-as-Judge, 자동화된 벤치마크, A/B 테스팅을 조합합니다. 측정할 수 없으면 개선할 수 없습니다.
중요한 결정에는 항상 인간 승인을 포함하세요. 신뢰가 쌓이면 점진적으로 자율성을 확대합니다. 처음부터 완전 자동화를 목표로 하지 마세요.
LangSmith, Braintrust, 또는 OpenTelemetry로 모든 에이전트 액션을 추적하세요. 프로덕션 에이전트의 62%가 관찰 도구 개선을 최우선 과제로 꼽았습니다.
에이전트 분야의 필수 논문과 자료 모음
에이전트 루프의 근간. Thought-Action-Observation 패턴을 제안. HotpotQA에서 할루시네이션을 극복하고, ALFWorld에서 34% 절대 성공률 향상.
단계별 추론 능력의 시작. 540B 모델에서 8개 CoT 예시로 GSM8K SOTA 달성. 100B+ 파라미터에서 발현하는 창발적 능력.
LLM이 자기 감독 방식으로 도구 사용을 학습. 어떤 API를, 언제, 어떤 인자로 호출할지 스스로 결정.
25명의 에이전트가 Sims 같은 마을에서 생활. Observation-Reflection-Retrieval 아키텍처로 인간과 유사한 사회적 행동을 시연.
언어적 자기 반성을 통한 학습. 가중치 업데이트 없이 시행착오에서 배움. HumanEval 67%→88% pass@1 달성.
CoT를 일반화한 탐색 기반 추론. BFS/DFS로 사고 트리를 탐색. Game of 24: CoT 4% → ToT 74%.
뉴로-심볼릭 아키텍처의 이론적 기반. 라우터가 입력을 적절한 모듈(LLM, 계산기, DB, API)로 전달.
ChatGPT를 컨트롤러로 사용해 Hugging Face의 전문 모델들을 오케스트레이션. 멀티모달 작업 처리의 선구자.
실무에서 가장 영향력 있는 가이드. 6가지 조합 가능한 패턴과 "단순하게 시작하라"는 철학.
Agent = LLM + Memory + Planning + Tools. 에이전트 아키텍처의 사실상 표준 레퍼런스.
실제 GitHub 이슈 해결 능력 평가. 실무 코딩 에이전트의 핵심 지표.
인간에게는 쉽지만 AI에겐 멀티모달 도구 사용이 필요한 작업 평가.
시뮬레이션된 OS 환경에서의 에이전트 작업 수행 능력 평가.