콘텐츠로 이동

Tiny LLM from Scratch

노트북에서 직접 만드는 작은 언어 모델. 데이터를 모으고, 토크나이저를 훈련하고, 트랜스포머를 손으로 짜고, 4시간 안에 10M 파라미터 모델 한 개를 끝까지 굴려본다. 양자화해서 llama.cpp 로 띄우는 것까지.

이 책이 다루는 것 / 다루지 않는 것

다룬다

nanoGPT 스타일 트랜스포머 · BPE · TinyStories/Cosmopedia · AdamW · mixed precision · perplexity · GGUF · llama.cpp

가볍게만 언급

RoPE · RMSNorm · SwiGLU · GQA · KV cache · LoRA

다루지 않는다

MoE · RLHF · DPO/GRPO · 멀티노드 · FSDP · 70B+ 스케일

전제

Python · PyTorch 입문 · 행렬곱 감 · Colab 또는 M1 이상 맥북

어디로 갈까