학습 내용¶

총 32챕터 + 캡스톤, 10주 본과정 · 전체 12주 예상. M1/M2 맥북 또는 Colab T4 에서 완주 가능한 스케일로 설계.

Part 1. 왜 작은 모델인가 (4 챕터)¶

#	제목	무엇을
1	작은 모델의 부활	Phi-3 · SmolLM2 · MobileLLM 흐름. "거대 모델만 답"이 깨진 이유.
2	API와 무엇이 다른가	API를 부르는 사람이 모르는 것. 직접 만들면 무엇이 보이나.
3	노트북에서 가능한 것	메모리·연산·시간 예산 계산. Colab T4·M2 vs A100 한 줄 비교.
4	오픈 웨이트 SLM 풍경 — 크기 · dense · MoE	왜 135M/360M/1.7B/3B 같은 크기 사다리. dense vs MoE 의 의미.

#	제목	무엇을
5	TinyStories와 합성 데이터	Eldan & Li 2023 · Cosmopedia · 합성 데이터로 1M 이 말을 한다.
6	BPE 토크나이저 직접 훈련	`tokenizers` 라이브러리로 vocab 8K 만들기. 한국어 처리 함정.
7	데이터 품질이 크기를 이긴다	Phi 시리즈 교훈 · FineWeb-Edu · 필터링 · de-dup.

#	제목	무엇을
8	Attention 다시 보기	scaled dot-product · causal mask · `F.scaled_dot_product_attention` 한 줄.
9	현대 블록: RoPE · RMSNorm · SwiGLU · GQA	왜 LayerNorm 대신 RMSNorm? 왜 GeLU 대신 SwiGLU? GQA 의 메모리 절감.
10	nanoGPT 100줄	Karpathy 스타일로 GPT-mini 처음부터.
11	파라미터·메모리 계산	"10M = 메모리 얼마?" · activation memory · gradient · optimizer state 산수.

#	제목	무엇을
12	학습 루프와 AdamW	step → grad → optimizer · cosine schedule · warmup.
13	Mixed Precision · Grad Accumulation	bf16/fp16 · `autocast` · 작은 GPU 큰 batch 흉내.
14	손실 곡선과 체크포인트	정상/이상 곡선 진단 · 재개 가능한 저장.
15	4시간 훈련 실전	TinyStories 200M 토큰 → 10M 모델, 끝까지.

#	제목	무엇을
16	perplexity 너머	PPL 만으로 안 되는 이유 · 생성 샘플 검토 프로토콜.
17	작은 벤치마크 만들기	HellaSwag-tiny · domain probe · pass@k 미니.
18	어텐션과 로짓 들여다보기	head별 attention 시각화 · top-k logit 추적.

#	제목	무엇을
19	양자화 입문	int8/int4 · symmetric/asymmetric · PTQ 한 번.
20	llama.cpp와 GGUF	HF 호환 모델→GGUF 변환 · `llama-cli` · 커스텀 아키텍처의 변환 경계.
21	작은 챗봇으로 마감	CLI 대화 루프 · system prompt · sampling 파라미터.

Part 1–6 까지 "처음부터" 만들고 나면, 그 지식을 기성 모델에 얹어 본인 도메인에 맞추는 방법으로 자연스럽게 이어진다. 도메인 특화 모델 (NER · 분류 · 요약 · ITN) 직결.

#	제목	무엇을
22	기성 sLLM 고르고 쓰기	Phi-3 / SmolLM2 / Gemma 2 / Qwen 2.5 / Llama 3.2 카드 비교 + 결정 트리.
23	처음부터 vs 파인튜닝	결정 트리. 노트북에서 가능한 파인튜닝 크기 산수.
24	LoRA · QLoRA 입문	low-rank 직관 + Qwen2.5-0.5B 에 30분 LoRA. QLoRA 4bit 베이스.
25	분류·NER 파인튜닝 (Encoder)	KoELECTRA/mBERT 로 도메인 entity 추출.
26	도메인 요약·생성 (Decoder LoRA + 추가 사전학습)	Qwen2.5-0.5B-Instruct LoRA + continued pre-training.
27	Distillation 미니	Teacher(1.7B)→Student(135M) SFT. SmolLM2/Gemma 2 가 실제로 쓴 길.
28	Seq2seq 미니 — ITN	byT5/T5-small + 합성 페어. encoder-decoder 한 번.

DPO · RLHF 는 본 책 범위 밖 — 자매 프로젝트 AI Assistant Engineering Part 7 참고.

모델 자체보다 데이터·평가·서빙·모니터링 이 운영을 결정한다. 이 4 챕터를 통과해야 "내 모델을 상용에 올린다" 가 된다.

#	제목	무엇을
29	데이터 파이프라인 — PII · 합성 · IAA	PII 마스킹, LLM 합성 라벨, inter-annotator agreement 미니.
30	회귀 평가 · 분포 외 · A/B	회귀셋 · hold-out · adversarial · 작은 A/B 설계.
31	서빙 — llama.cpp server · vLLM · 지연 예산	p50/p95 예산, 배치, 동시성. 노트북 ~ 사내 GPU 한 장.
32	모니터링 · 피드백 루프 · 비용	환각·드리프트·피드백 합류 + GPU 시간/라이선스/PII 정책 비용 모델.

나만의 도메인 SLM — 두 트랙 중 하나를 끝까지 완주한다.

A · From scratch: 데이터 → BPE → GPTMini 학습·평가 → 재현 가능한 PyTorch 패키지 → Hugging Face Hub 업로드
B · Compatible deployment: HF 호환 sLLM 선택 → 도메인 파인튜닝 → 평가 → GGUF → llama.cpp → Hub + 데모

직접 만든 커스텀 모델에 GGUF를 억지로 약속하지 않는다. 변환기와 런타임이 지원하는 아키텍처인지가 배포 형식을 결정한다.