콘텐츠로 이동

학습 내용 — v2

AI Assistant Engineering — LLM을 "API로 호출하는 법"을 넘어, 스스로 추론하고 도구를 쓰고 개선되는 어시스턴트를 기획·구현·운영하는 전 과정. 대상은 초보부터 엔터프라이즈 프로덕션까지.

커리큘럼의 축

Stanford CME 295(LLM 이론) + Stanford CS329A(Self-Improving Agents 연구 프런티어) + Anthropic / OpenAI / LangGraph 공식 엔지니어링 가이드를 하나의 흐름으로 엮습니다. 각 챕터 끝에는 원전 링크 — 이 책은 요약본이 아니라 읽는 순서의 내비게이션.

v1 → v2 변경점

_research/ 아카이브를 기반으로 공백을 메우고 순서를 바로잡은 개정판.

# 변경 근거
1 Ch "임베딩과 검색" Part 1 → Part 3로 이동 API 호출도 안 해본 상태에서 임베딩은 추상적. RAG 직전이 자연스러움
2 스트리밍 · UX 챕터 신설 (Part 2) 챗봇 체감 품질의 핵심. 공백이었음
3 Advanced RAG 챕터 신설 (Part 3) HyDE · Self-RAG · GraphRAG · Agentic RAG — 업계 표준으로 올라옴
4 멀티모달 RAG 절 신설 (Part 3) 문서 레이아웃·비전이 RAG 품질에 직결
5 LLM-as-a-Judge 챕터 신설 (Part 4) CME 295 Lec 8. v1에 누락
6 추론 품질 높이기 챕터 신설 (Part 4) CoT · self-consistency · best-of-N · verifier. CS329A Lec 2–3
7 Agent 메모리 챕터 신설 (Part 5) CS329A Lec 14 + LangGraph thread/cross-thread. v1에 없었음
8 Agent 패턴 챕터 강화 (Part 5) Anthropic 5패턴 + OpenAI 매니저/탈중앙 — 업계 표준 어휘
9 가드레일 7종 챕터 (Part 6) OpenAI 가이드 표를 엔터프라이즈 체크리스트로 이식
10 비용 · 지연 최적화 챕터 신설 (Part 6) 프롬프트 캐싱 · 모델 라우팅 · 배치 — 프로덕션 필수

총 챕터 수: v1 26 → v2 34. 12주 과정은 14주로 확장 권장 (§8).


1. 학습 로드맵

7부 + 캡스톤 로드맵 7부 + 캡스톤 로드맵

순서의 의미

평가(Part 4)를 Agent(Part 5) 앞에 두는 건 의도적입니다. Anthropic 가이드의 권고 — "단순 프롬프트에서 시작해 평가로 최적화하고, 단순 해결책으로 안 될 때만 에이전트로 올려라" — 와 정확히 일치합니다.


2. 전체 목차 (34챕터)

Part 1. 입문 — LLM과 AI Assistant의 기초 (3장)

# 챕터 핵심 참고
1 왜 모델이 필요한가 규칙 vs 모델. OpenAI의 3판단 기준 (복잡 결정 · 유지 어려운 규칙 · 비정형 데이터) OpenAI Practical Guide
2 LLM이란 무엇인가 토큰·컨텍스트·next-token·hallucination CME 295 Lec 1–3
3 AI Assistant 시스템 개요 입력→이해→검색→생성→검증→저장→모니터링→휴먼 핸드오프

산출물: 용어집 · 코드 vs 모델 판단표 · Assistant 구조도 1장


Part 2. Python으로 LLM 다루기 (5장)

# 챕터 핵심
4 OpenAI / Anthropic API 시작 기본 호출, system/user, 에러·재시도
5 프롬프트 엔지니어링 + CoT 기초 역할 부여, few-shot, Chain-of-Thought, 모르면 모른다
6 구조화 출력 JSON Schema · Pydantic · 검증 · fallback
7 스트리밍과 UX 🆕 토큰 스트림 · 부분 렌더링 · 취소 · 타임아웃
8 Tool Calling 기초 function calling · 파라미터 생성 · 안전 실행

산출물: Python 예제 모음 · 구조화 출력 PoC · 첫 Tool Calling 예제


Part 3. RAG — 외부 지식을 붙이는 법 (6장)

# 챕터 핵심
9 왜 RAG가 필요한가 최신성 · grounding · 파인튜닝과의 차이
10 임베딩과 벡터 검색 기초 ← Part 1에서 이동 코사인 · MMR · 벡터DB의 역할
11 RAG 파이프라인 전체 흐름 수집·chunking·embedding·retrieval·generation·citation
12 검색 품질 개선 chunk size · top-k · metadata filter · hybrid (BM25 + dense) · reranking
13 Advanced RAG 🆕 HyDE · Self-RAG · GraphRAG · Agentic RAG
14 LangChain 실전 + 멀티모달 RAG 🆕 retriever·chain·prompt template. PDF 레이아웃·비전 임베딩 짧게

산출물: 문서 QA RAG PoC · 검색 실패 분석표 · 파이프라인 다이어그램


Part 4. 평가 · 추론 품질 · 디버깅 (5장)

# 챕터 핵심
15 무엇을 평가해야 하는가 retrieval · generation · end-to-end · 오프라인 vs 온라인
16 평가셋 만들기 gold set · edge cases · coverage · 분류
17 LLM-as-a-Judge 🆕 심판 모델 설계 · 편향과 보정 · 휴먼 캘리브레이션
18 추론 품질 높이기 🆕 Chain-of-Thought 심화 · Self-Consistency · Best-of-N · Verifier 모델
19 실패 분석과 디버깅 prompt/retrieval/data/ranking/generation/tool 실패 유형 분리

산출물: 평가 기준서 · 평가셋 초안 · 실패 분석 리포트


Part 5. Agent & LangGraph (6장)

# 챕터 핵심
20 Agent란 무엇인가 Model · Tool · Instruction 3요소 (OpenAI). LLM app과 Agent 구분
21 Agent 패턴 🆕 Anthropic 5패턴 (chaining · routing · parallelization · orchestrator-workers · evaluator-optimizer) + OpenAI 2패턴 (manager · decentralized)
22 Tool Use 실전 Data · Action · Orchestration 툴 · ACI(Agent-Computer Interface) 설계 · 승인 기반 실행
23 LangGraph — 상태 그래프 StateGraph · node · edge · conditional edge · reducer · checkpointer · interrupt
24 Agent 메모리 🆕 thread-scoped / cross-thread store · MemGPT · 에피소딕 · KV 캐시
25 멀티 에이전트와 역할 분리 planner/executor · researcher/writer · verifier/responder · 과도한 복잡성의 위험

산출물: Tool-using Assistant PoC · LangGraph flow diagram · Agent 실패 시나리오 문서


Part 6. 운영형 AI Assistant — 프로덕션 (5장)

# 챕터 핵심
26 Production 아키텍처 요청 흐름 · 모델/검색 분리 · 세션·메모리 · sync/async · rate limit
27 관측성과 운영 logging · tracing · prompt/데이터셋 버전 관리 · latency/cost/quality 지표 · LangSmith/Langfuse
28 가드레일 7종 🆕 relevance · safety · PII · moderation · tool · rules-based · output validation (OpenAI 표)
29 휴먼 개입 설계 실패 임계치 · 고위험 액션 · escalation · 감사 로그
30 비용 · 지연 최적화 🆕 프롬프트 캐싱 · 모델 라우팅(Haiku↔Sonnet↔Opus) · 배치 API · 컨텍스트 압축

산출물: 운영 아키텍처 문서 · 관측성 지표표 · 안전성/보안 가이드 · 비용 시뮬레이터


Part 7. 모델 & 파인튜닝 (4장)

# 챕터 핵심
31 모델 아키텍처 개요 Transformer · attention · instruction tuning · base vs chat · open vs hosted
32 파인튜닝이 필요한 경우와 아닌 경우 Prompt / RAG / 구조화 출력이 먼저. 데이터 요구량과 품질
33 LoRA / QLoRA 실전 (Colab) PEFT · QLoRA · 데이터 포맷 · 학습 루프
34 소형모델 · 증류 · DPO 개요 latency/cost · distillation · DPO (SFT→DPO→RLHF 맥락)

산출물: 파인튜닝 필요성 검토서 · Colab 노트북 · 소형모델 적용 아이디어


캡스톤 — Self-Improving Assistant

사용자 피드백 로그 수집 → 실패 케이스 자동 분류 → DPO 데이터로 변환 → 주간 재학습 루프. CS329A 최종 프로젝트의 미니어처.

제출물: 문제 정의 · 아키텍처 · 데이터 구성 · Prompt/RAG/Agent 전략 · 평가 결과 · 실패 분석 · 운영 고려사항 · 자기 개선 루프 설계


3. 참고 자료 지도

  • RAG: Self-RAG · HyDE · GraphRAG
  • Reasoning: Chain-of-Thought · Self-Consistency · Tree of Thoughts · Let's Verify Step by Step · Archon
  • Alignment: InstructGPT(RLHF) · DPO · Constitutional AI
  • Agents: ReAct · Reflexion · Voyager · SWE-agent · MemGPT · CodeMonkeys
  • Efficient FT: LoRA · QLoRA

원전 우선 원칙

이 책은 요약을 복붙하지 않습니다. 각 챕터 끝에 원전 링크 — 이 책은 "어떤 순서로 · 어떻게 읽을지" 의 내비게이션.

4. Stanford 강의와의 상세 매핑

CME 295 우리 챕터
Lec 1–3 (Transformer·LLM) Part 1 Ch 2, Part 7 Ch 31
Lec 3 (prompting/ICL) Part 2 Ch 5
Lec 4 (training, quantization, LoRA) Part 7 Ch 33
Lec 5 (tuning, RLHF, DPO) Part 7 Ch 34
Lec 6 (reasoning) Part 4 Ch 18
Lec 7 (RAG, function calling, ReAct) Part 3 · Part 5
Lec 8 (LLM-as-a-Judge) Part 4 Ch 17
CS329A 우리 챕터
Lec 2–3 (test-time compute, verification) Part 4 Ch 18
Lec 4–5 (ReAct, multi-step) Part 5 Ch 20–22
Lec 14 (memory) Part 5 Ch 24
Lec 13 (SWE agents, CodeMonkeys) Part 5 Ch 25 + 캡스톤
Lec 17 (long-horizon eval) Part 4 Ch 15
Lec 7 (self-evolution) · Final project 캡스톤

5. 선수 지식

Python

함수·클래스·async 기본. 가상환경·pip.

Shell

기본 명령어·환경변수. Colab만 쓸 거면 생략 가능.

수식 읽기

행렬 곱·확률·softmax 수준. Part 7 전에 Part 1로 충분.

ML 기초

있으면 빠르게 읽히지만 필수 아님.

6. 완주 후 가질 능력

체크리스트로 확인:

  • 문제를 받고 코드 / Prompt / RAG / Agent / Fine-tuning 중 무엇으로 풀지 판단한다
  • Assistant를 입력·이해·검색·생성·검증·저장·모니터링·휴먼 핸드오프 블록으로 분해·설계한다
  • RAG 파이프라인의 실패 원인을 prompt/retrieval/data/ranking/generation 레벨에서 분리 진단한다
  • Anthropic 5패턴·OpenAI 2패턴을 현실 문제에 대응시킨다
  • LangGraph로 영속·인터럽트·메모리가 있는 멀티 스텝 워크플로우를 만든다
  • LLM-as-a-Judgeself-consistency·best-of-N·verifier로 출력 품질을 올린다
  • 가드레일 7종을 체크리스트로 운영 시스템에 적용한다
  • 프롬프트 캐싱·모델 라우팅·배치로 비용·지연을 체계적으로 낮춘다
  • 파인튜닝이 진짜 필요한지 판단하고, 필요하면 LoRA/QLoRA를 Colab에서 돌린다
  • 사용자 피드백 로그 → 실패 분류 → DPO 데이터 → 재학습의 자기 개선 루프를 설계한다

7. 평가 비중 (권장)

  • 주간 과제 30% · 실습 PoC 30% · 중간 설계 리뷰 15% · 최종 프로젝트 25%

통과 기준:

  • 입문: 구조도·용어 설명 가능
  • 기본: RAG · 구조화 출력 · 평가셋 제출
  • 심화: Agent · 운영 설계 · 가드레일 · 개선 리포트
  • 엔터프라이즈: 캡스톤(Self-Improving Assistant) 완성

8. 14주 운영 예시 (v2)

v1의 12주에서 2주 추가. 신설 챕터 수용.

내용
1 Ch 1–2: 왜 모델 · LLM 기초
2 Ch 3 · 4: Assistant 구조 · API 첫 호출
3 Ch 5 · 6: 프롬프트+CoT · 구조화 출력
4 Ch 7 · 8: 스트리밍·UX · Tool Calling
5 Ch 9 · 10: RAG 필요성 · 임베딩·벡터검색
6 Ch 11 · 12: 파이프라인 · 검색 품질
7 Ch 13 · 14: Advanced RAG · LangChain+멀티모달
8 Ch 15 · 16: 평가 기준 · 평가셋
9 Ch 17 · 18: LLM-as-Judge · 추론 품질
10 Ch 19 · 20: 실패 분석 · Agent란
11 Ch 21 · 22: Agent 패턴 · Tool Use
12 Ch 23 · 24: LangGraph · Agent 메모리
13 Ch 25 · 26 · 27: 멀티 에이전트 · 운영 아키텍처 · 관측성
14 Ch 28 · 29 · 30 · 31–34 개요 · 캡스톤 리뷰

Part 7(파인튜닝)은 수강생 필요에 따라 심화 옵션으로 분리하고, 14주 본과정은 Part 6까지 다루는 것을 기본으로 한다. 전체 34챕터를 다 돌리려면 16–18주 권장.

9. 우선순위 가이드

반드시 먼저 · 코드 vs 모델 · LLM 기초 · 구조화 출력 · RAG · 평가 · Agent 패턴·가드레일

그다음 · Agent 고도화 · 운영 아키텍처 · 관측성 · 비용·지연 최적화 · Agent 메모리

나중 · 파인튜닝 · 증류 · 소형모델

10. 한 줄 요약

모델을 깊게 연구하는 것보다, 실제 업무용 AI Assistant를 이루는 블록을 이해하고
Prompt / RAG / Agent / 평가 / 운영 / 가드레일을 구분해서 설계할 수 있게 만드는 것.


Part 1 시작하기 학습 시스템 보기